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中 文摘 要 


大 语言 模型 (LLMs, Large Language Models) 能 够 从 大 量 语 料 的 上 下 文中 学 习 
到 模式 , 其 包括 词语 之 间 的 关系 、 句子 的 结构 甚至 更 复杂 的 语义 和 语 用 信息 ,然而 ， 
让 预 训练 语言 模型 生成 结构 化 、 严 格 遵 循 约定 的 内 容 仍 然 是 一 项 挑战 。 

我 们 提出 了 一 种 引导 大 模型 生成 计算 机 高 可 用 内 容 的 方案 ， 无 需 微调 和 额外 
的 神经 网 络 推理 , 通过 提前 约定 的 上 下 文 无 天 文法 (CFG, Context-Free Grammar) 构 
建 一 个 采用 协 程 的 约束 装置 ， 在 自 回 归 模 型 Transformer 的 解码 阶段 引导 模型 采样 
正确 的 词 元 , 以 构成 符合 程序 约定 的 形式 语言 。 这 将 保证 计算 机 程序 每 次 都 能 把 语 
言 模 型 生成 内 容 解 析 为 期 望 的 数据 结构 、 类 型 或 指令 , 以 便 开发 人 员 更 容易 地 将 大 
语言 模型 纳入 具体 应 用 程序 。 

我 们 在 多 个 任务 数据 集 上 进行 了 实验 ， 包括 ISON. Mermaid 框图 和 函数 调用 
表达 式 生 成 等 任务 , 结果 表明 我 们 的 方法 能 够 有 效 地 提高 LLMs 生成 内 容 对 计算 机 
程序 的 可 用 性 。 

关键 词 : 大 语言 模型 ， 结 构 化 内 容 生 成 ， 上 下 文 无 关 文法 ， 协 程 


Abstract 


Large language models (LLMs) have demonstrated remarkable capabilities in learn- 
ing patterns from massive text corpora, including word relationships, sentence structures, 
and even complex semantic and pragmatic information. However, it remains challenging 
to induce pre-trained language models to generate structured content that strictly follows 
specific conventions. 

We propose a novel approach to guide large models for generating computer-inter- 
pretable content without fine-tuning or additional neural network inference. By pre-defin- 
ing context-free grammar (CFG) and constructing a coroutine-based constraint mecha- 
nism, we guide the model to sample correct tokens during the decoding stage of the Trans- 
former autoregressive model, thus forming a formal language that complies with program 
conventions. This ensures that the generated content can be consistently parsed into the 
expected data structures, types, or instructions by the computer program, facilitating the 
seamless integration of LLMs into specific applications by developers. 

We evaluate our approach on multiple task datasets, including JSON, Mermaid dia- 
grams, and function call expression generation. The results demonstrate that our method 
can effectively improve the usability of LLM-generated content for computer programs. 

Key Words: Large language models, Structured content generation, Context- 


free grammar, Coroutine 
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1 绪论 


11 ” 选 题 背 景 及 意义 


LLMs 已 经 让 我 们 见证 了 计算 机 拥有 一 定 程 度 上 的 理解 和 生成 自然 语言 的 能 
J, 并 且 对 不 同 领域 的 任务 均 有 一 定 泛 化 能 力 , 这 种 人 机 对 话 能 力 可 以 帮助 人 类 解 
决 问 题 。 人 类 理解 语言 的 鲁 棒 性 很 强 , 但 是 由 开发 人 员 所 编写 的 计算 机 程序 却 难 以 
做 到 。 在 合理 输入 提示 词 的 前 提 下 , 有 两 种 路 径 让 预 训练 LLMs 更 准确 地 指导 完成 
一 系列 自动 化 任务 ， 或 作为 计算 机 程序 中 间 件 纳入 更 多 种 类 的 生产 过 程 。 


难以 开发 、 容 易 出 错 
和 难以 错误 处 理 


伪 自 然 语 言 /模糊 语言 


大 语言 模型 


1-1 语言 模型 可 能 无 法 输出 预期 结构 的 信息 以 被 程序 解析 

这 两 种 常用 途径 分 别 是 开发 鲁 棒 性 更 好 的 应 用 程序 、 对 齐 语言 模型 。 但 是 这 两 
种 途径 可 能 都 存在 一 定 的 问题 ， 具 体 来 说 : 

(1) GPT 等 语言 模型 所 拥有 语言 理解 和 生成 能 力 使 得 人 们 能 够 开发 出 “更 不 可 
思议 的 ”应 用 程序 ,但 是 如 果 需 要 基于 大 语言 模型 开发 如 图 1-1 所 示 的 应 用 程序 , 则 
开发 者 经 常会 遇 到 “痛苦 "。 大 语言 模型 的 输出 依赖 于 概率 ， 无 法 100% 确保 大 语言 
模型 生成 的 内 容 符合 预期 的 结构 。 开 发 者 开发 鲁 棒 性 更 高 程序 去 应 对 模型 的 输出 
更 为 困难 、 成 本 很 高 。 模 型 的 输出 不 符合 预期 往往 带 来 更 多 信息 技 失 、 计 算 资 源 溪 
费 、 甚 至 整个 任务 链 路 的 失败 ; 

(2) 男 一 种 方案 是 对 齐 语言 模型 ， 使 得 此 模型 在 特定 任务 上 更 适 配 我 们 的 应 用 
程序 。 以 提升 生成 内 容 可 用 性 ， 减 少 计 算 资源 浪费 。 但 对 齐 语言 模型 会 带 来 < 对齐 
税 ”( 大 语言 模型 在 预 训练 期 间 获得 了 广泛 的 能 力 ， 但 在 人 类 反馈 的 强化 学 习 下 对 
齐 模型 会 导致 其 遗忘 ) 中 ,针对 某 一 类 任务 新 对 齐 的 模型 还 需要 新 的 部 署 ， 导 致 所 
需 计算 资源 的 成 本 飞升 。 


FREE 


a 处 理 后 的 


ÆR 


1.2 ”国内 外 研究 现状 


语言 模型 不 仅仅 能 够 直接 与 人 类 进行 对 话 ， 还 应 该 拥有 准确 使 用 给 定 工具 的 
能 力 , 这 在 形式 上 等 价 于 让 语言 模型 理解 指令 , 然后 使 用 给 定 的 应 用 程序 接口 。 而 
这 本 质 又 要 求 语言 模型 输出 可 以 被 计算 机 解析 为 符合 预期 数据 结构 的 领域 特定 语 
言 。 无 论 是 学 术 界 还 是 工业 界 ， 相 关 工 程 和 研究 近年 来 在 不 断 出 现 。 

1.2.1 学术 界 对 控制 语言 模型 的 研究 


OpenAI 在 2018 年 2 月 以 一 篇 名 为 《通过 生成 式 预 训练 提高 语言 理解 能 力 》 的 
论文 发 布 了 开源 的 预 训练 语言 模型 GPT12， 随 后 在 2019 年 、2020 年 分 别 发 布 了 
GPT-2 和 GPT3。 此 前 ， 这 三 个 版 本 仅仅 在 学 术 界 有 所 新 闻 ， 直 到 OpenAI 于 2022 
年 11 月 30 日 发 布 了 商业 产品 ChatGPT. 在 随后 的 短 短 $ 天 时 间 内 ， 其 注册 用 户 达 
到 了 100 万 ， 两 个 月 后 其 月 活用 户 数量 就 达到 了 1 亿 , 成 为 商业 界 和 科技 圈 的 热门 
话题 。OpenAI 开 放 了 网 络 接口 ， 多 许 开 发 者 使 用 OpenAI 的 语言 模型 来 开发 “更 不 
可 思议 ”的 应 用 程序 。 更 多 研究 人 员 参 与 到 大 语言 模型 的 应 用 研究 当中 ， 他 们 发 现 
通过 一 种 提示 技术 ， 能 够 使 语言 模型 通过 “思维 链 ” 进 行 “推理 "， 并 能 够 通过 使 用 预 
定义 工具 集中 的 工具 〈 如 能 够 搜索 互联 网 ) 来 “行动 ”。 实 验证 明 , 这 种 组 合 极 大 地 
提高 了 输出 文本 质量 ， 并 赋予 大 型 语言 模型 正确 解决 问题 的 能 力 口 。 

OpenAI 注 意 到 了 大 量 开 发 人 员 对 GPT 拥 有 更 多 更 灵活 控制 的 需求 , 于 2023 年 
11 月 6 日 的 OpenAIDevDay 正式 发 布 GPT4 Turbo。OpenAI 的 首席 执行 官 Sam Alt- 
man 在 Opening Keynote 中 提 到 了 6 大 更 新 , 在 第 二 节 的 “More Control" 部 分 重点 推 
出 JSON mode。 这 是 一 个 让 GPT 直接 生成 JSON (JavaScript Object Notation) 文本 
的 功能 。 不 像 模糊 语言 ，JSON 属于 上 下 文 无 关 语言 ， 被 工业 界 广泛 采用 ， 易 于 被 
程序 解析 为 内 存 中 确定 的 数据 结构 ， 从 而 更 好 的 参与 计算 机 程序 的 逻辑 链 路 。 

ElementAI 的 研究 人 发 现 ， 采 用 增 量 解析 来 约束 语言 模型 的 自 回归 解码 (PI- 
CARD, Parsing Incrementally for Constrained Auto-Regressive Decoding) 能 够 有 效 的 
让 语言 模型 生成 形式 语言 , 尤其 是 生成 有 效 的 SQL 查询 语句 向 。 这 种 让 语言 模型 在 
自 回 归 解 码 过 程 中 拒绝 掉 不 合法 的 词 , 仅 输出 能 够 构成 合法 DSL 前 组 的 约束 解码 ， 
可 能 正 是 OpenAI 实 现 JSON mode HY) EERE. 除了 JSON mode 之 外 , 方法 调用 (Func- 
tion calling) 也 能 从 GPT 中 获取 结构 化 输出 。 通 过 预先 告知 的 方法 名 、 方 法 描述 和 
调用 所 需 的 参数 和 对 应 类 型 ，GPT 会 生成 JSON 格式 的 函数 调用 信息 , 其 本 质 上 仍 
然 是 一 种 JSON mode， 但 是 这 使 得 GPT 拥有 了 使 用 工具 的 能 


2 


Google 和 MIT 的 研究 人 员 于 2023 年 5 月 底 提 出 了 Grammar Prompting, 75 ik 
LLM 根据 上 下 文生 成 BNF 的 语法 规则 ， 然 后 再 用 约束 解码 让 LLMs 根据 语法 规则 
生成 文本 。 通过 语义 解析 DSL (SMCalFlow, GeoQuery, Overnight), 动作 DSL (PDDL 
planning)、 分 子 生成 (SMILES) 等 实验 ， 研 究 人 员 认 为 Grammar Prompting 可 以 改 
进 标准 提示 基线 ， 这 种 方法 还 有 望 更 好 地 帮助 LLMs 使 用 工具 中。 

1.2.2 ”工业 界 对 生成 结构 化 串 的 需求 


在 工业 界 ， 让 大 语言 模型 生成 结构 化 文本 的 一 个 典型 需求 是 生成 JSON F 
符 串 ,一些 开发 人 员 意 识 到 LLMs 并 不 能 稳定 的 生成 有 效 的 JSON F, 但 幸运 的 是 
LLMs 犯错 的 情况 总 是 比较 典型 , 因此 可 以 通过 一 个 解析 程序 在 大 部 分 情况 下 不 破 
坏 内 容 的 修复 LLMs 产生 的 错误 中 。 这 种 方法 属于 先 让 LLMs 生成 内 容 ， 然 后 再 尝 
试 修复 它 ， 程 序 并 不 一 定 能 适 配 各 种 大 模型 并 在 所 有 情况 下 修复 字符 串 。 

来 自 微软 的 开发 人 员 于 2022 Æ 11 Å 11 日 在 代码 托管 平台 GitHub 提交 了 

guidance 的 第 一 行 代码 ， 这 是 一 个 用 于 控制 大 语言 模型 的 Python HEEL, GBR 
断 地 更 新 迭代 ，guidance 提 供 了 使 用 正则 表达 式 、 上 下 文 无 关 文 法 、 交 织 控制 (Inter- 
leave Control) 等 的 方式 来 控制 来 自 Transformers, LlamaCpp, VertexAI, OpenAI 等 接 
口 的 语言 模型 名， 使 开发 人 员 能 够 更 灵活 的 控制 语言 模型 。 
H Huggingface 在 GitHub 开源 的 Transformers JÆ, 提供 了 大 量 的 预 训练 语言 模 
型 和 源 代 码 实 现 四 。 来 自 EPFL 的 开发 人 员 Saibo Geng 于 2023 年 11 月 17 日 在 
Transformers 仓库 提交 的 427557 号 PR (pull request) 提供 了 一 个 使 用 EBNF 接口 的 
草案 “上 下 文 无 关 文法 的 约束 解码 ”代码 实现 。Saibo Geng 认为 语法 约束 的 语言 模型 
明显 优 于 不 受 约束 的 语言 模型 , 甚至 击败 了 特定 任务 的 微调 模型 。 语法 约束 对 于 利 
用 现成 的 语言 模型 进行 广泛 的 结构 化 NLP 任务 具有 很 大 的 前 景 ， 尤 其 是 在 训练 数 
据 稀缺 或 微调 成 本 高 昂 的 情况 下 09。 

工业 界 更 常用 的 YLLM 库 提 供 了 速度 快 且 灵活 的 开源 LLMs 推理 服务 实现 
1, FRAR Andrew Lapp! 于 2023 年 12 月 14 日 在 vlim 仓库 提交 了 42105 号 PR 
实现 了 一 个 增 量 的 LALR 算法 的 CFG 或 正则 解析 器 ， 用 以 在 语言 模型 生成 过 程 中 
确定 “legal-next-token” 集合 ， 此 PR 依赖 在 GitHub 开源 的 语法 解析 器 Larkt3 实现 
了 EBNF 接口 的 vllm.grammar.GrammarLogitsProcessor， 用 以 约束 语言 模型 生成 严格 


符合 约定 语法 的 内 容 。 


T] 


"https://github.com/lappO 


12.3 AAN TT AA PRE 


现 有 研究 和 技术 方案 的 问题 主要 可 以 描述 为 三 点 ， 分 别 是 训练 和 推理 成 本 很 
高 、 方 法 泛 用 性 和 易 用 性 不 好 、 方 法 鲁 棒 性 和 时 间 复 杂 度 不 好 。 

其 一 : LLMs 的 训练 和 推理 成 本 很 高 , 针对 不 同 的 DSL 生成 需求 训练 或 调 优 模 
型 过 程 繁 琐 、 成 本 很 高 ， 且 仍 无 法 期 望 生成 内 容 达 到 100% 的 可 用 性 。 如 果 生 成 内 


容 的 语法 不 符合 预期 ， 不 能 通过 程序 的 语法 检查 ， 就 只 能 重新 


生成 或 以 失败 终止 。 


工业 界 针 对 JSON 的 修复 方法 不 能 处 理 所 有 情况 ， 且 不 适用 于 其 他 DSL ， 开 发 人 


员 编写 在 这 类 “修复 "程序 的 心智 负担 较 大 。 


其 二 : Antlr4, Lark 和 Tree-sitter03] 等 Parser Generator 的 设计 目标 是 生成 一 个 
高 性 能 解析 (或 增 量 解析 ) 符合 文法 的 串 为 AST 的 程序 源 代码 。 他 们 的 设计 目标 不 
是 提升 鲁 棒 性 或 用 于 自动 化 生成 DSL。 当 输 入 的 文本 不 符合 文法 时 , 这 些 程序 的 解 


析 过 程 通常 会 出 错 并 终止 , 可 以 获取 出 错 信 息 , 但 通常 位 置 和 原因 不 够 精确 , 不 足 


-> 


以 引导 生成 DSL。 这 些 解 析 器 也 无 法 从 解析 中 途 恢复 并 指导 DSL 生成 。 
H=: Transformers 和 vLLM 仓库 的 CFG 相关 PR 提案 ， 以 及 上 述 的 期 刊 、 会 


议 的 相关 研究 ， 采 用 的 方法 并 非 “ 异 步 "+ “指令 方法。 即便 是 增 量 解析 ,在 最 差 的 


情况 下 ， 现 有 技术 在 自 回归 语言 模型 生成 每 一 个 token 的 时 候 都 需要 验证 一 遍 当 前 


已 生成 的 前 绥 是 否 属于 DSL 或 DSL 的 前 级 , 一 些 优化 方案 是 + 


兽 加 方法 调用 缓存 以 


及 增 量 解 析 ， 但 时 间 复 杂 度 仍然 可 能 不 好 。 生 成 长 度 为 n 的 DSL， 若 验证 DSL 的 


时 间 复杂 度 为 O(f(n)) ， 那 么 生成 DSL 的 复杂 度 将 会 是 DI 


O(f(i)) 。 根 据 DSL 


或 解析 器 的 不 同 ，O(f(n)) 可 能 是 O(n), O(n?) BK O(n?) 等 情况 。 


13 ”课题 研究 内 容 


kam) 
一 


竺 何 信息 形式 | 应 用 程序 | 数据 结构 或 指令 (DSL) 


用 户 


| 引导 装 
大 语言 模型 


1-2 引导 产生 数据 结构 或 指令 使 得 应 用 程序 更 好 工作 


首先 ， 开 发 人 员 需 要 以 更 低 的 心智 负担 ， 将 语言 模型 纳入 到 应 用 程序 实现 中 。 
在 图 1-2 这 个 模型 中 , 用 户 既 不 会 直接 与 LLMs 对 话 (可 以 减少 LLMs 被 攻击 者 “ 洗 
脑 * 的 不 安全 性 ), 也 不 会 直接 接受 LLMs 的 输出 , 而 是 经 由 应 用 程序 的 处 理 转 换 为 
其 他 人 机 交互 的 体现 〈 例 如 通过 图 表 、 动 画 和 声音 等 信息 形式 响应 用 户 )。 

其 次 , 为 应 对 现 有 研究 和 技术 方案 的 局 限 性 , 本 研究 设计 的 引导 装置 包含 了 两 
个 子 装置 : 装置 一 是 采用 异步 和 协 程 的 DSL 解析 和 产生 装置 , 即 “ 异 步 DSL 解析 语 
言 生成 装置 ”; 装置 二 是 在 装置 一 的 基础 上 ,调用 语言 模型 进行 DSL 采样 的 解码 装 
置 ， 即 “语言 模型 引导 装置 "。 通 过 上 述 两 个 装置 ， 实现 引导 LLMs 在 合适 的 位 置 产 
生 预 期 的 DSL， 开 发 人 员 得 以 更 轻松 地 利用 LLMs 的 能 力 开发 鲁 棒 性 更 高 的 应 用 
程序 。 整 个 系统 大 致 流程 如 图 1-3 所 示 。 


异步 DSL 解 析 


语言 生成 装置 


Instruction DSL 


语言 模型 
SER 


send 
(Next Token) 


下 一 个 合法 的 


修改 后 处 理 词 元 集合 


Tokenizer 


Vocab Logits 合法 词 元 IDs 
非法 词 元 IDs 


后 处 理 器 


(Processor) 


update 
(Next Tokens) 


New Vocab Logits 


Probs 
i 


图 1-3 引导 大 语言 模型 生成 可 解析 内 容 的 系统 
(1) 开发 人 员 基 于 本 研究 实现 的 框架 和 其 提供 的 若干 组 合子 方法 、 装 饰 器 和 生 
成 器 ， 用 Python 协 程 、 类 、 方 法 和 递归 等 编程 概念 编写 BNF 的 上 下 文 无 关 文法 语 
言 的 生成 器 类 。 此 生成 器 能 够 产生 一 种 用 以 产生 给 定 CFG 对 应 语言 的 引导 指令 。 


(2) 装置 一 运行 开发 人 员 给 定 的 生成 器 类 ， 产 生 引 导 指 令 并 驱动 装置 二 ， 装 置 
驱动 自 回 归 语 言 模 型 从 语言 引导 指令 中 采样 下 一 个 合法 的 词 元 。 具体 来 说 , 对 于 
Transformer 架构 的 模型 ， 装 置 二 会 在 解码 之 前 的 “后 处 理 ” 阶 段 将 所 有 不 合法 词 元 
(语言 模型 词汇 表 对 应 的 词 元 ID 类 型 ) 禁用 , 然后 再 由 语言 模型 的 解码 装置 产生 下 
一 个 词 元 (字符 串 类 型 )， 同 时 选取 能 合法 构成 下 一 个 DSL 前 级 的 词 元 前 级 。 

(3) 产生 的 下 一 个 词 元 前 绥 会 被 纳入 自 回 归 语 言 模型 的 上 下 文 当 中 ， 同 时 此 词 
元 前 缀 也 会 输入 到 装置 一 , 使 得 其 产生 下 一 个 引导 指令 。 直到 装置 一 产生 结束 指令 
《例如 EOF. EOS 等 指令 )，DSL 生成 完毕 。 


14 ”论文 结构 安排 


本 文 将 主要 介绍 工业 界 常用 的 领域 特定 语言 的 结构 和 产生 方式 ， 如 何 设计 一 
个 采用 协 程 实现 的 异步 DSL 产生 和 解析 装置 ， 以 及 如 何在 此 装置 基础 上 为 自 回归 
语言 模型 (尤其 是 Transformer 架构 的 语言 模型 ) 构建 一 个 约束 解码 装置 ， 使 得 开 
发 人 员 可 以 在 此 装置 基础 上 更 轻松 地 利用 大 语言 模型 的 能 力 开 发 鲁 棒 性 更 高 的 应 
用 程序 。 有 具体 来 次， 各 个 章节 内 容 安排 如 下 : 

第 一 章 : 绪论 。 主要 内 容 是 本 研究 的 选 题 背景 和 意义 、 学 术 界 对 控制 语言 模型 
的 研究 、 工 业界 对 生成 结构 化 串 的 需求 、 现 有 研究 和 技术 方案 的 局 限 性 、 课题 研 究 
内 容 和 本 论文 的 结构 安排 。 

第 二 章 : 开发 人 员 需 要 语言 模型 生成 DSL 开发 应 用 。 主要 介绍 了 工业 界 、 学术 
界 和 其 他 领域 常用 的 DSL 形式 。 计 算 机 依赖 DSL 来 实现 具体 功能 ， 而 开发 人 员 既 
需要 依赖 DSL 也 需要 利用 语言 模型 的 通用 能 力 来 开发 应 用 。 

第 三 章 : 大 语言 模型 在 DSL 生成 任务 上 的 性 能 缺陷 。 主 要 介绍 了 现 有 大 语言 模 
型 在 按照 指令 要 求生 成 DSL 时 性 能 较 差 , 不 能 总 是 能 够 生成 符合 预期 结构 的 文本 。 
本 章 还 从 现 有 语言 模型 的 解码 策略 上 分 析 了 产生 这 种 性 能 缺陷 的 原因 ， 并 提出 了 
可 能 的 改进 方案 。 

第 四 章 : 产生 DSL 的 基本 规则 和 范式 , 实现 生成 器 。 主 要 介绍 了 形式 语言 的 产 
生 规则 , 将 DSL 认为 是 一 种 形式 语言 , 尤其 是 最 常用 的 上 下 文 无 关 语言 。 本 章 介绍 
了 采用 递归 下 降 和 协 程 实现 的 DSL 生成 装置 ， 此 装置 也 可 用 于 DSL 解析 和 验证 。 
通过 随机 采样 或 其 他 采样 方法 ， 此 装置 能 够 产生 计算 机 可 以 解析 的 内 容 。 


第 五 章 : 生成 开发 者 预期 的 DSL 通过 语言 模型 采样 ,主要 介绍 了 基于 约束 解码 
的 方法 将 现 有 Transformer 架构 的 语言 模型 用 作 采 样 器 , 在 生成 器 中 选择 DSL 产生 
路 径 。 此 方法 也 可 以 用 于 其 他 自 回归 语言 模型 。 

第 六 章 : 本 研究 在 语言 模型 生成 DSL 领域 取得 优势 ,主要 介绍 了 本 研究 的 实验 
结果 ， 在 多 个 任务 数据 集 上 进行 实验 ， 包 括 ISON. Mermaid 框图 和 函数 调用 表达 
式 等 DSL 生成 任务 ， 以 及 测试 了 DSL 约束 装置 对 语言 模型 采样 次 数 的 影响 。 

第 七 章 : 总 结 与 展望 。 对 本 研究 所 做 的 工作 进行 总 结 , 展望 了 本 研究 所 提出 的 
方法 的 用 途 ， 并 说 明 本 研究 的 局 限 性 及 可 能 的 研究 方向 。 


1.5 本章 小 结 


本 章 主 要 介绍 了 开发 人 员 在 使 用 大 语言 模型 开发 具体 应 用 程序 时 可 能 面临 的 
困难 : 难以 开发 足够 高 鲁 棱 性 的 计算 机 程序 将 语言 模型 的 输出 内 容 解析 为 开发 
人 员 和 程序 所 期 望 的 数据 结构 。 学术 界 和 工业 界 现 有 三 种 途径 来 解决 这 一 问题 , 包 
括 “ 事 后 修复 ”、“ 对 齐 模型 ”和 “约束 解码 ”。 然而， 现 有 方法 均 存 在 一 定 的 局 限 性 ， 
本 研究 将 改进 现 有 的 “约束 解码 实现， 分 别 实现 异步 DSL 解析 语言 生成 装置 和 语 
言 模型 引导 装置 ， 开 发 人 员 能 在 此 基础 上 更 容易 的 利用 语言 模型 产生 DSL 以 开发 
鲁 棒 性 更 高 的 应 用 程序 。 


2 ”开发 人 员 需 要 语言 模型 生成 DSL 开发 应 用 


领域 特定 语言 已 经 在 编程 实践 中 得 到 了 非常 广泛 的 应 用 ， 开 发 人 员 依 赖 DSL 
进行 数据 交换 、 配 置 文件 编写 和 业务 轴 辑 实现 。 DSL 的 解析 和 产生 是 各 种 编程 语言 
的 标准 库 、 软 件 包 或 应 用 程序 开发 框架 广泛 提供 的 功能 。 随 着 大 语言 模型 的 发 展 ， 
人 们 发 现 大 语言 模型 在 语义 理解 和 生成 方面 拥有 广泛 的 用 途 ， 开 发 人 员 和 希望 借助 
LLMs 的 通用 能 力 开发 新 的 应 用 程序 , 而 DSL IE a LLMs 与 现 有 应 用 程序 交互 的 一 
种 重要 途径 。 因 此 ， 开 发 人 员 需 要 语言 模型 生成 DSL 开发 应 用 。 


21 ”领域 特定 语言 


领域 特定 语言 (DSL, Domain-Specific Language) 是 一 种 为 特定 领域 应 用 程序 设 
计 的 计算 机 语言 , 也 被 称 作 面向 应 用 语言 mn 、 特 殊 用 途 语 言 53 等 。 与 通用 编程 语言 
(GPL, General-Purpose Language) 不 同 ，DSL 专注 于 特定 领域 的 表达 能 力 ， 并 提供 
更 简洁 、 更 易于 理解 的 语法 和 语义 。 

为 方便 描述 , 本 文 所 指 的 DSL 强调 可 被 计算 机 程序 解析 为 特定 数据 结构 的 串 ， 
或 称 为 形式 语言 (Formal language) ， 不 区 分 DSL 和 GPL。 用 于 数据 交换 的 JSON, 
XML YAML 等 语言 ,用 于 查询 的 SQL、XPath、XQuery 等 语言 , 用 于 排版 的 HTML、 
BTEX, Markdown 等 语言 以 及 各 种 编程 语言 都 认为 是 一 种 DSL. 


22 ”工业 界 常用 的 DSL 


一 些 软件 开发 人 员 除了 需要 使 用 通用 编程 语言 (例如 C、Java、Go 和 Rust 等 ) 
Sh, 在 开发 过 程 中 还 需要 使 用 各 种 各 样 的 DSL。 这些 DSL 可 能 涉及 包括 标记 语言 、 
信息 交换 语言 、 数 据 格式 、 应 用 程序 接口 、 软 件 配 置 、 图 文 排版 等 各 种 领域 . 表 2-1 
列 出 了 部 分 工业 界 常用 的 DSL 名 称 、MIME 类 型 和 其 简介 。 
表 2-1 部 分 工业 界 DSL 举例 


简要 介绍 


JSON 定义 了 一 套 轻 量规 则 , 用 于 可 移植 地 表示 结构 化 数据 。 


JSON 的 文法 是 上 下 文 无 关 的 ， 是 Web 最 常用 的 数据 交换 格 


application/jsonl!6l 


式 之 一 ， 被 广泛 应 用 于 前 后 端 数据 交换 、 配 置 文件 编写 ( 例 
如 NodeJS 软件 包 的 package.json 文件 ) 等 场景 。 


简要 介绍 


可 扩展 标记 语言 (eXtensible Markup Language) 是 一 种 标记 
语言 , 可 用 于 存储 、 传输 和 重 构 松散 数据 。 XML 的 文法 是 上 
XM application/xmll!7] = td os ; 本 
下 文 无 关 的 , 被 广泛 应 用 于 前 后 端 数 据 交 换 、 配 置 文件 编写 


(例如 Maven 软件 包 的 pom.xml 文件 ) 等 场景 。 


超 文 本 标记 语言 (HyperText Markup Language) 是 一 种 用 于 
HTML text/htmlis) 创建 网 页 的 标记 语言 。HTML 的 文法 是 上 下 文 无 关 的 , 广泛 


应 用 于 排版 和 前 端 应 用 开发 。 


EG PÅ (Comma-Separated Values) 是 一 种 通用 的 、 简 单 
CSV text/csvl9] 的 文件 格式 ， 以 纯 文 本 存储 表格 数据 (数字 或 文本 )。 其 作 


为 信息 交换 格式 被 用 户 、 商 业 和 科学 界 广泛 应 用 。 


基于 JavaScript 的 图 表 创 建 工 具 ， 它 的 语法 和 泻 染 受 Mark- 
Mermaid? | text/vnd.mermaid | down 启发 ,用 于 创建 和 修改 各 种 复杂 的 图 表 ， 包括 流程 图 、 


时 序 图 、 甘 特 图 、 类 图 、Git 图 、 实 体 关 系 图 等 Co。 


表 2-1 中 的 MIME 指 的 是 互联 网 媒体 类 型 (Multipurpose Internet Mail Exten- 
sions) ， 是 一 种 互联 网 传输 内 容 类 型 的 标准 , 也 是 一 种 被 BNF 定义 的 DSL, 最 初 于 
互联 网 请 求 意见 稿 (RFC, Request for Comments) 所 定义 2。 


2.3 ”学 术 界 使 用 的 DSL 


学 术 界 最 常见 的 需求 是 是 需要 一 种 DSL 来 表示 数学 或 其 他 学 科 领 域 的 公式 ， 
这 种 DSL 应 该 是 准确 、 严 格 且 易 于 用 户 输 入 的 , 它 能 够 被 相应 的 计算 机 程序 解析 为 
特定 数据 结构 , 然后 再 由 计算 机 排版 和 泻 染 算法 将 其 转换 为 矢量 图 或 位 图 , 以 便 用 
于 屏幕 显示 或 印刷 。 能 够 处 理 复 杂 数 学 符号 排版 的 最 经 典 DSL 便 是 TeX 文本 ,其 
次 还 有 被 HTML5 标准 兼容 的 MathML (一 种 用 于 描述 数学 符号 和 捕获 它 的 结构 与 
内 容 的 标记 语言 22) 和 新 兴 的 用 于 排版 的 Typst 编程 语言 9。 

在 物理 领域 ，Q# 是 由 微软 开发 的 一 个 量子 算法 工具 包 ， 后 来 芝加哥 大 学 的 
Kartik Singhal 等 人 给 予 了 它 正 式 的 规范 ， 提 出 的 和 -Q# 拥有 更 严格 的 数学 定义 和 类 
型 系统 5q， 这 使 得 在 描述 量子 算法 上 也 拥有 了 和 良好 句法 定义 的 DSL。 

一 些 研究 人 员 创 造 了 专用 的 标记 方法 SMILES 来 表示 化 学 分 子 式 P。 这 种 表 
示 方 法 使 用 ASCI 字 符 串 明确 分 子 结构 , 一 些 研 究 人 员 使 用 深度 神经 网 络 训练 生成 


https://mermaid.js.org/intro/ 
>https://Www.iana.org/assignments/media-types/application/vnd.mermaid 
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SMILES 字符 串 的 概率 模型 来 产生 化 学 结构 29。2007 年 开源 化 学 社区 开发 了 开放 规 
范 OpenSMILES4， 社 区 使 用 了 BNF 形式 的 文法 定义 了 这 种 语言 R71。 

在 生物 领域 , 科研 人 员 使 用 深度 学 习 、 自 然 语言 处 理 等 技术 来 研究 蛋白 质 , 他 
们 认为 常见 蛋白 质 的 基 序 和 结构 域 类 似 于 人 类 语言 中 的 单词 、 短 语 和 句子 Pa, 因此 
DSL 也 可 用 作 研 究 蛋 白质 的 工具 。 


2.4 ”其 他 领域 需要 DSL 


除了 工业 界 和 学 术 界 会 使 用 DSL 外 ， 在 其 他 一 些 领 域 〈 例 如 商业 、 艺 术 等 领 
域 ) 也 会 用 到 DSL。 专用 于 商业 的 编程 语言 COBOL (Common Business Oriented Lan- 
guage) 是 最 早 的 高 级 编程 语言 , 也 是 世界 上 最 早 实施 标准 化 的 计算 机 语言 之 一 。 专 
用 于 实时 声音 合成 或 音乐 创作 的 计算 机 编程 语言 ChucKP?) JET XML 的 声音 计算 
系统 Csound! 和 为 电子 艺术 以 及 视觉 交互 设计 而 创建 的 编程 语言 Processing!!! 等 
诸多 DSL 也 在 其 各 自 领域 得 到 了 广泛 应 用 。 


25 语言 模型 生成 DSL 


GPT 等 语言 模型 已 经 让 开发 人 员 见 证 了 其 在 各 个 领域 的 通用 能 力 ， 包 括 信息 
提取 、 文 本 摘要 、 机 器 翻译 、 问 答 助 手 、 代 码 生 成 等 等 能 力 。 更 具体 的 ， 我们 还 希 
望 语 言 模型 能 够 在 具体 的 环境 下 做 识别 、 分 类 、 路 由 、 推 理 、 决 策 等 任务 。 当 语言 
模型 参与 到 具体 的 计算 机 应 用 或 研究 当中 时 ， 需 要 生成 特定 的 DSL 以 便 计 算 机 程 
序 识 别 。 如 果 大 语言 模型 能 够 遵循 指令 要 求生 成 DSL, 那么 其 易 用 性 和 谤 用 性 将 会 
大 大 提高 。 这 可 能 是 让 通用 人 工 智能 学 会 使 用 工具 的 途径 之 一 。 


2.6 KA NÅ 


本 章 介绍 了 在 工业 界 、 学 术 界 、 商 业界 、 艺 术 界 等 与 计算 机 交汇 的 领域 ，DSL 
得 到 了 极为 广泛 的 应 用 ， 并 且 已 经 有 不 少 研究 人 员 采 用 语言 模型 来 进行 学 术 研 究 。 
GPT 等 语言 模型 拥有 强大 的 泛 用 性 , 而 开发 人 员 依 赖 DSL, 如 果 语 言 模型 能 够 拥有 
准确 遵循 指令 而 生成 开发 人 员 所 期 望 的 DSL 的 能 力 ， 那 么 语言 模型 将 更 加 实用 且 
拥有 极为 广泛 的 应 用 前 景 。 


4http://opensmiles.org/opensmiles.html 
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3 ”大 语言 模型 在 DSL 生成 任务 上 的 性 能 缺陷 


虽然 DSL 在 各 个 领域 应 用 广泛 , 但 是 基于 深度 学 习 的 模型 产生 合法 的 DSL 是 
一 个 有 挑战 性 的 任务 。 例 如 DeepSMILES 的 作者 在 2018 年 的 论文 中 提 到 ， 如 果 使 
用 一 个 基于 字符 级 别 的 循环 神经 网 络 (RNN) 模型 来 生成 SMILES 字符 串 ， 这 个 模 
型 可 能 生成 大 量 不 合法 的 字符 串 ， 原 因 在 于 模型 总 是 不 能 产生 匹配 的 括号 对 R5321。 
这 种 不 合法 的 字符 串 无 法 被 化 学 软件 解析 为 合法 的 化 学 结构 。 

众多 DSL 在 文法 层面 规定 了 匹配 的 括号 对 、 引 号 对 或 其 他 语言 结构 , 对 应 的 软 
件 也 依赖 于 这 些 结构 来 解析 DSL。 如 果 需 要 用 LLMs 生成 DSL, 就 需要 先 验证 现 有 
的 LLMs 是 否 能 够 根据 指令 生成 约定 的 DSL， 并 且 其 性 能 如 何 。 


3.1 FM DSL 句法 规则 


ae 


最 常见 的 句法 就 是 匹配 的 括号 对 ， 其 基本 规则 是 每 一 个 左 括号 的 右边 都 有 一 
个 右 括号 与 之 匹配 。 这 样 的 语法 结构 在 众多 编程 语言 或 DSL 中 都 有 应 用 ， 例 如 
JavaScript. Python, Lisp 和 JSON 等 。 如 果 字 母 表 卫 仅 包 含 '(' 和 ')' 两 个 字符 ， 
那么 最 简单 的 插 号 对 是 '()'。 给 定 一 个 字符 串 s € 2* ， 一 种 常用 来 验证 此 字符 串 
是 否 属于 合法 括号 对 的 算法 是 使 用 栈 来 验证 , 但 对 于 仅 有 两 种 字符 的 情况 , 可 以 简 
化 为 公式 (3-1) 所 示 的 函数 Legal(s) 来 验证 s 是 合法 的 字符 串 前 级 。 


ls] k a 
Legal(s) = (SE a p J = (3-1) 


k=1 i=1 


当 字 母 表 TI 包含 多 种 括号 对 ， Gli D=LUR; L={'C. [1 Ui R= 
{)', 1, 0), MRI AEN s € I 构成 集合 L(G) ， 那 么 图 3-1 所 示 的 算法 


可 以 验证 一 个 字符 串 s 是 否 属于 语言 L(G) ， 其 中 G 是 语法 ，e 是 空 串 。 


LEGAL-BRACKET-FAIRS (s € &*,m: L > R): 
Løe] > 初始 化 空 栈 o 
2 for cin s: > 按 顺 序 遍 历 Yc E s 
if c in m: > 字符 c 是 左 括号 
push c to o > 将 字符 入 栈 o 


else: > 字符 c 是 其 他 字符 
|< (pop o) if |0| > 0 else € 
ifm(l)#c: >c [PRES LIEL 匹配 
return False > s 不 是 合法 字符 串 
9 return |o| #0 VELns 被 匹配 则 合法 


3-1 检查 括号 对 是 否 匹 配 的 算法 
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除了 括号 对 外 , 字符 串 转 义 也 是 各 种 DSL 中 常见 的 句法 规则 。 当 我 们 用 一 对 引 


号 包 庄 一 串 字 符 时 ,这 一 串 字 符 就 不 能 直接 的 包含 引号 ， 而 是 需要 转 义 。 例 如 如 果 
我 想 表示 包含 一 个 " 字符 的 字符 串 时 ,我 需要 写成 \"" 而 不 是 " ,否则 应 用 程序 


的 语法 解析 器 会 在 第 二 个 " 字符 处 理 完毕 后 结束 字符 串 的 解析 。 
3.2 ”验证 DSL 生成 性 能 的 实验 思路 


既然 括号 对 匹配 和 字符 串 转 义 是 DSL 中 广泛 存在 的 句法 规则 ， 那 么 要 验证 语 
言 模型 的 DSL 生成 性 能 , 就 可 以 先 从 这 两 方面 入 手 。 如 果 语 言 模 型 连 这 些 最 基本 的 
句法 规则 都 无 法 遵循 ， 那 么 就 更 别提 生成 更 为 具体 的 DSL 的 性 能 了 。 
FH GPT 等 常见 语言 模型 是 自 回 归 模型 , 其 生成 的 文本 是 逐个 词 元 生成 的 , 那 
么 对 于 这 些 语 言 模 型 ,他们 要 生成 合法 括号 对 L(G) 的 前 提 是 生成 合法 括号 对 字符 
串 的 前 级 。 假 设 语言 模型 仅 预测 的 词 元 是 1='(' 和 = ')' ， 根 据 公 式 (3-1) 和 合 
法 括号 对 的 规则 可 知 I= {sre | s € L(G), x € 5) 是 非法 的 括号 对 集合 。 


(197.8% ( | 100% 
«one ees oe 


22% 
(197.4% ( | 97.9% 
ee N em EEG 
3-2 ”让 语言 模型 (Gemma) 预测 下 一 个 括号 的 概率 
实验 的 基本 思路 是 构建 字符 串 s = Tr" © L(G), WAK 3-1 的 提示 词 让 模型 
预测 ' (或 ')' 的 概率 ， 而 > = ') 的 概率 恰好 就 是 错误 率 ， 就 如 图 3-2 所 示意 。 
表 3-1 iL LLMs 补 全 括号 对 字符 串 的 提示 词 


NG 
aR 


中 文 提示 词 英文 提示 词 
给 定 一 个 仅 包含 (, ) 的 字符 串 。 Given a string containing only (, ). 
有 效 的 括号 对 字符 串 必须 满足 : A valid bracket pair string must satisfy: 
1. 每 个 左 括号 的 右 侧 都 有 一 个 与 之 匹配 的 唯 1. The right side of each left bracket has a unique 
一 对 应 的 右 括 号 。 corresponding right bracket that matches it. 
2. 不 同位 置 的 左 括号 与 不 同位 置 的 右 括号 相 2. Left brackets in different positions match 
匹配 。 right brackets in different positions. 
有 效 的 括号 对 字符 串 A valid bracket pair string: 


DUE GLE + ")" *n5 nt tn 4 EN 


SJOA BE BES] AA ET FAT r” 
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3.3 ”验证 语言 模型 的 DSL 生成 性 能 

通过 给 语言 模型 一 个 se L(G) ， 然 后 让 其 生成 下 一 个 词 元 x ， 计 算 z = 1 或 
z 二 7 的 概率 ， 就 可 以 得 到 语言 模型 在 合法 括号 对 生成 任务 上 的 性 能 。 图 3-3 展示 
了 在 四 种 模型 上 实验 ， 随 着 |s| 的 增加 ， 生 成 + 和 不 合法 串 的 概率 的 变化 。 


1.0 F 1.0 F ' J 
0.8 F 0.8 F 4 
GF 0.6 F 4 
0.4 F 0.4 F J 
27 —— Right parenthesis 1 0.25 —— Right parenthesis 4 
— Illegal prefix — Illegal prefix 
0.0[ , i , | J 00E | | | | | J 
0 50 100 150 200 250 300 0 50 100 150 200 250 300 
(1) OpenAI/GPT-2° 117M"?! (2) OpenAI/GPT-2 Large’ 762MB3] 
1.0 C T T T T T T i ] 1.0 C T T ] 
0.8 F 0.8 F 4 
0.6 I 0.6 F J 
Ap 0.4 F 4 
2r — Right parenthesis 0.2 F — Right parenthesis 4 
—— Illegal prefix —— Illegal prefix 
.0 F 1 1 1 1 i 1 1 a 0.0 L 1 L L L L L L J 
0 50 100 150 200 250 300 0 50 100 150 200 250 300 
(3) OpenAI/GPT-2 XL’ 1542M!) (4) Google/Gemma-7B? 7751M" 


3-3 ”模型 生成 错误 DSL 的 概率 随 生 成 长 度 而 增 大 
3-3 的 数据 显示 了 四 种 模型 在 |s| 增加 时 ， 错 误 率 r(e) 不 断 提升 ， 也 就 是 说 
在 括号 对 这 种 基本 DSL 生成 任务 下 ， 其 DSL 生成 性 能 也 在 快速 下 降 。 
表 3-2 RE r(e) 与 平均 字符 串 长 度 |s| 的 关系 


_ 模型 名 称 ”参数 量 Date lshon lleon 


GPT-2 117M 2019-2-14 14 20 
GPT-2 Large 762M 2019-2-14 24 32 
GPT-2 XL 1542M 2019-2-14 32 36 
Gemma TISIM 2024-2-21 194 282 


K 3-2 表明 , 参数 量 达 到 一 亿 的 GPT2 在 生成 字符 串 长 度 达到 20 HENAN 
Ft Bl) 95%， 即 使 是 参数 量 达 到 近 78 亿 的 Gemma 模型 ， 其 |s| 达到 282 时 ， 错 误 率 
也 高 达 95% 以 上 。 这 些 语言 模型 的 DSL 生成 性 能 是 不 可 接受 的 。 


Shttps://huggingface.co/openai-community/gpt2 
”https://huggingface.co/openai-community/gpt2-large 
3https://huggingface.co/openai-community/gpt2-x1 
”https://huggingface.co/google/gemma-7b 


3.4 ”让 语言 模型 生成 DSL 是 困难 的 


在 一 定 任务 长 度 下 , 神经 网 络 可 以 正常 工作 , 但 随 着 长 度 增加 , 神经 网 络 失效 
是 一 种 非常 典型 的 事情 。 人 类 “一 目 了 然 ” 的 情况 ， 神 经 网 络 可 以 解决 。 但 是 ， 如 果 
需要 做 一 些 “ 更 算法 化 ”的 事情 (例如 明确 地 计算 括号 以 查看 它们 是 否 匹 配 )， 神 经 
网 络 往往 在 某 种 程度 上 因为 “计算 太 浅 ”而 无 法 可 靠 地 完成 ， 就 算是 当前 完整 1750 
亿 参 数 的 ChatGPT 也 很 难 正确 匹配 长 序列 中 的 括号 对 2。 

大 语言 模型 通常 使 用 自 回归 模型 来 生成 文本 。 在 自 回 归 模型 中 ， 下 一 个 词 的 
概率 分 布 取决 于 前 面 的 词 。 然 而 ， 如 果 每 次 都 选择 概率 最 高 的 词 ， 模 型 将 过 于 “ 保 

而 缺乏 创意 和 多 样 性 。 在 大 语言 模型 工业 实践 当中 ， 不 同 的 采样 器 可 以 用 来 帮 
助 语言 模型 提升 性 能 。 常 见 的 采样 方法 有 随机 采样 、 贪 焚 采 样 (Greedy search). R 
采样 (Beam search) 和 核 采 样 (Nucleus sampling) 等 。 

LLMs 采样 之 前 还 可 以 进行 例如 “温度 ”的 后 处 理 操作 来 改变 模型 输出 层 Logits 
张 量 中 的 概率 分 布 ， 以 影响 采样 。 不 同 的 采样 参数 是 语言 模型 的 超 参 数 ， 这 些 超 参 
数 可 能 会 影响 LLMs 的 输出 和 性 能 表现 65324。 大 语言 模型 的 温度 参数 是 在 工程 实践 
中 非常 常用 的 参数 之 一 ， 其 值 是 大 于 0 的 浮 点 数 ， 通 常 介 于 [0,1] ZI) (大 于 1 会 
导致 模型 性 能 快速 下 降 59)， 用 于 调整 模型 输出 的 多 样 性 。 
温度 采样 与 玻 尔 效 曼 分 布 有 关 , 它 给 出 一 个 系统 处 于 某 种 状态 的 概率 , 如 公式 
(3-2) 中 的 på 描述 了 该 状态 的 能 量 及 温度 的 概率 测度 函数 。 


el PT e fil (kT) 
Pi = Q = FA e—Es/ (kT) (3-2) 
j= 


it 


公式 (3-2) 与 公式 (3-3) 的 softmax 函数 非常 相似 ， 只 不 过 softmax 函数 没有 在 
HÆ 2; 上 除 以 ET > WE TRA, på 的 分 布 越 均匀 ， 而 工 越 低 ，p; 的 分 布 越 集 
HH, 就 如 图 3-4 所 示 。 温度 采样 通过 调整 参数 了 来 改变 词 元 的 概率 分 布 , AKT 
以 显著 增加 大 语言 模型 输出 内 容 的 多 样 性 。 


softmax ( — :) Sa (3-3) 
_2./T 
T ere gl 
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È 0.75 


0.50 


8 


图 3-4 ”指数 分 布 的 概率 密度 函数 图 B59 
玻 尔 兹 曼 分 布 是 一 种 P(x) ~ Exp(z) 的 指数 分 布 。 如 图 3-4 所 示 ， 当 温度 入 从 
1.5 降低 到 0.5 时 , 分 布 越 来 越 平缓 , 这 意味 着 其 他 可 能 性 的 词 更 有 可 能 被 选中 。 特 
别 的 ， 温 度 为 0 时 相当 于 选择 概率 最 大 的 Top-1 词 元 。 


om So om “So 


© po Oo po of D of ro 
图 3-5 合法 括号 对 字符 串 的 树 状 示意 图 
自 回归 语言 模型 生成 一 串 文本 , 相当 于 在 一 个 巨大 的 单词 表 上 进行 采样 。 对 于 
匹配 括号 对 这 样 的 任务 来 说 , 单词 表 可 以 仅 有 左右 括号 和 EOS 三 个 词 元 。 语 言 模型 
从 空 串 e 开始 在 如 图 3-5 的 树 状 图 上 “ 游 走 ”， 在 正确 的 位 置 上 “ 停 下 来 "(生成 EOS 
词 元 ) 是 艰难 的 。 因为 正确 位 置 非常 稀少 , 错误 路 径 数量 总 是 超过 正确 的 路 径 数 量 。 
由 于 LLMs 的 采样 通常 具有 “温度 ”等 随机 性 ， 只 要 走 错 一 步 就 前功尽弃 ”了 。 


3.5 ”本 章 小 结 


KAWAI DSL 的 典型 句法 特征 “括号 对 匹配 "， 然 后 给 出 了 括号 对 匹配 的 验 
证 算法 和 规律 。 之 后 , 本 章 介 绍 了 验证 语言 模型 生成 DSL 性 能 的 实验 思路 。 本 章 重 
点 展示 四 种 语言 模型 在 括号 对 生成 任务 上 的 性 能 ， 结 果 显 示 这 些 语言 模型 在 生成 
DSL 任务 上 的 性 能 是 难以 接受 的 。 最 后 , 本 章 从 理论 上 简单 解释 了 自 回 归 语 言 模型 
EER DSL 任务 上 性 能 不 佳 的 原因 。 
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4 ”产生 DSL 的 基本 规则 和 范式 ， 实 现 生 成 器 


41 形式 语言 层次 、 基 本 概念 


递归 可 枚 举 


上 下 文 有 关 


上 下 文 无 关 
正则 


4-1 FER 
语言 学 家 诺 姆 : 乔 姆 斯 基 (Avram Noam Chomsky) 于 1956 年 提出 了 著名 的 乔 姆 
斯 基 谱系 。 乔 姆 斯 基 谱 系 是 计算 机 科学 中 描述 形式 文法 表达 能 力 的 一 个 分 类 谱系 。 
它 将 形式 语言 分 为 四 个 层次 吧 ， 并 且 逐 级 包含 ， 如 图 4-1 和 表 4-1 FA. 
表 4-1 乔 姆 斯 基 谱系 的 四 种 语法 类 型 
语法 类 型 ”语言 类 型 。 可 识别 自动 机 产生 规则 


0- 型 ”递归 可 枚 举 图 灵机 (yte) 3 a 
LÆ ” 上 下 文 有 关 ”线性 有 界 自动 机 a46 ayp 
2- 型 ”上下文 无 关 下 推 自动 机 Asa 
3-4 正则 ”有 限 状 态 自动 机 A oB 

领域 特定 语言 作为 一 种 形式 语言 , 其 语言 也 包含 了 两 部 分 : 语法 和 语义 。 首 先 ， 
语法 是 DSL 的 基础 ， 如 果 语 法 有 问题 ， 就 更 别提 DSL 被 计算 机 程序 识别 了 。 专 门 
研究 和 表达 语言 语法 的 理论 称 作 形 式 语言 理论 ， 而 能 被 数学 或 计算 机 准确 处 理 的 
语言 被 称 作 形式 语言 。 

形式 语言 定义 在 一 个 特定 的 字母 表 忆 上 , 例如 集合 OC, &) 就 是 一 个 字母 
K (其 中 & 表示 结束 符 )， 集 合 {1, 0} 也 是 一 个 字母 表 。 形 式 语言 的 字母 表 恰 巧 与 
大 语言 模型 的 词汇 表 相 对 应 。 

如 果 有 一 个 字母 表 允 ,字母 表 上 长 度 为 n 的 串 记 作 3", 而 任意 长 度 的 串 记 作 
2* ， 特 别 定义 Do 是 仅 包含 空 串 的 集合 {fe} 。 字 母 表 上 的 语言 具有 语法 G 表示 
NL(IG)CX*. Ha bel, ad 表示 两 者 左右 连接 ，o 表示 a 重复 上 次 。 

K 4-1 中 乔 姆 斯 基 谱系 中 的 上 下 文 无 关 文 法 (CFO) 拥有 足够 强 的 表达 能 力 来 
表达 绝 大 多 数 的 编程 语言 ， 是 描述 编程 语言 语法 的 首选 形式 1 。 
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42 ”产生 式 与 上 下 文 无 关 语 言 


形式 语言 的 的 语法 由 产生 规则 定义 ， 产 生 规 则 包含 了 有 限 的 非 终结 符 N 集 、 
有 限 的 终结 符 集 (字母 表 )〉 DY ABRAM PERUSE PÉU (XU N)*N(XUN)* 一 
(SUNY 和 开始 符号 Se N ， 四 元 组 G=(N, I, P, S) 定义 了 一 个 形式 文法 。 
若 1 = 二 '(' 且 = ') ， 那 么 可 以 公式 (4-1) 来 表示 合法 的 括号 对 序列 。 
P = {5 > £, S > ISrS} (4-1) 
公式 (4-1) 与 公式 (4-2) 表达 的 含义 相同 ， 但 是 公式 (4-2) 可 能 更 加 清晰 。 
(Pairs) > (Pair) 
(Pairs) > (Pair) (Pairs) 
(Pair) — ( (Pairs) ) 
(Pair) > € 
上 下 文 无 关 语言 作为 编程 语言 语法 的 首选 形式 ， 当 然 也 可 以 用 来 定义 C 语言 。 
4-2 左 侧 展示 了 由 CFG 的 产生 规则 定义 的 C 语言 的 一 个 子 集 的 语法 。 一 串 简 单 
的 C 语言 代码 字符 串 if (x>9) {x= 0 y=yt 15 1 可 以 被 语法 规则 分 解 为 如 
图 4-2 右 侧 的 树 状语 法 结构 。 


(4-2) 


(Stmt) 
if ¢ (Expr) 2 (Stmt) 
(Expr) (Optr) (Expr) 
(Id) 


x (Optr) 
> 


(Expr) 
(Num) 
9 (Stmt) 
(Stmt) — (Id) = (Expr) ; { (StmtList) } 
(Stmt) 一 { (StmtList) } (StmtList) (Stmt) 
(Stmt) — if ( (Expr) ) (Stmt) (Stmt) 
(StmtList) 一 (Stmt) (Id) = (Expr) ; 
(StmtList) 一 (StmtList) (Stmt) ~x = (Expr) 
(Expr) — (Id) (Num) 
(Expr) > (Num) 0 (Stmt) 
(Expr) — (Expr) (Optr) (Expr) (Id) = (Expr) 
o >x (Expr) 
Id) > y (Expr) (Optr) (Expr) 
ma > 0 (Id) 
(Num) > 1 y —(Optr) 
(Num) 一 9 + (Expr) 
(Optr) > > (Num) 
(Optr) > + tt x > 2 Le E iyt y + 1 ;} 


图 4-2 C 语言 (形式 语法 的 一 个 子 集 和 树 状 结构 

4-2 中 的 (Stmt) 即 表示 一 个 语句 ，(StmtList) 表示 多 个 语句 ，(Expr) 表示 
AHA» (Id) 表示 一 个 标识 符 ，(Num) 表示 一 个 数字 ，(Optr) 表示 一 个 操作 
符 。 这 些 非 终 结 符 都 可 以 通过 规则 展开 ， 最 终 构成 一 个 合法 的 C 语言 代码 字符 串 。 


43 ”常见 领域 特定 语言 的 规则 


用 于 表达 形式 语言 的 一 系列 数学 符号 和 延 拓 可 以 称 为 元 语言 ， 指 的 是 讨论 或 
研究 语言 本 身 时 所 用 的 语言 。 除 了 上 述 数 学 符号 可 以 用 来 表达 DSL 外 , 巴 科斯 范式 
(BNF, Backus Normal Form) 或 其 扩展 EBNF 也 可 以 用 于 表达 DSL, 并 且 其 本 质 上 与 
Section 4.2 所 述 的 形式 语言 语法 G = (N, DX, P, S) 等 价 。BNF 被 广泛 地 用 于 编程 语 
言 、 指 令 集 和 通信 协议 等 领域 ， 当 然 也 包含 本 文 Section 2 所 述 的 各 种 DSL. 

由 于 各 种 互联 网 技术 规范 都 需要 定义 一 个 正式 的 语法 规则 ， 这 种 需求 导致 
BNF 的 另 一 种 增强 形式 ABNF (Augmented BNF) 出 现 并 已 受到 许多 人 的 欢迎 cm。 
ABNF 是 BNF 的 一 个 扩展 , 它 平衡 了 紧凑 性 、 简单 性 与 合理 性 , 适合 用 于 描述 DSL 
的 语法 ， 并 成 为 一 个 互联 网 标准 (STD 68, RFC5234)" 。 


"title": "引导 大 语言 模型 生成 计算 机 可 解析 内 容 "， 
"author": "ERME", 
"id": 20202005312, 
"keywords": [ 
"Large language models", 


"Structured content generation", 
"Context-free grammar", 
"Coroutine" 


": "2024-03-26" 


4-3 一 个 JSON 字符 串 样 例 
一 个 典型 的 DSL 是 JSON 语言 , 一 个 样 例如 图 4-3 所 示 , 它 因为 包含 括号 对 且 
括号 对 能 够 “递归 ”的 互相 骨 套 而 不 属于 正则 语言 ， 是 一 种 典型 的 上 下 文 无 关 语言 。 
JSON 语言 的 部 分 语法 规则 可 以 用 如 图 4-4 所 示 的 元 语言 来 描述 。 


JSON 
value 
object 
array 
number 


[ ws ] value [ ws ] 
false | null | true | object | array | number | string 
'{' [ member *( ',' member ) ] ')' 
'T' [ JSON *( ',' JSON) ] 9 
[ '-' ] int [ frac ] [ exp ] 
" *char '"' 
[ ws ] string [ws] ':' JSON 
('e' | 'E') [ '-' | '+' ] 1*digit 
'@' | ( onenine *digit ) 
' 1*digit 


string 
member 


exp 
int 
frac 


4-4 JSON 的 简要 语法 表示 
4-4 中 的 ws 表示 任意 空白 字符 (例如 U+ee286，U+688A，U+688D，U+8669 等 ) ， 
char 表示 任意 字符 (如 果 歧 义 则 需要 转 义 )，digit 表示 数字 (6 到 9) 字符 ，onenine 


‘Ohttps://www.rfc-editor.org/info/std68 


IT 


表示 非 零 (1 到 9) 数字 字符 。 除 此 之 外 ， 形 如 [ A ] 的 表示 A 是 可 选 的 ( 即 A 或 空 
e); *A 表 示 A 可 以 出 现任 意 次 ; 1*A 表示 A 至 少 出 现 一 次 ; A | B 表示 A 或 8 之 一 ; 
用 单 引 号 括 起 来 的 串 'A' 表示 属于 允 的 具体 的 终结 符 。 


request-header := Accept 
Accept-Charset 
Accept-Encoding 
Accept-Language 
Authorization 
Expect 
From 
Host 
If-Match 
If-Modified-Since 
If-None-Match 
If-Range 
If-Unmodified-Since 
Max-Forwards 
Proxy-Authorization 
Range 
Referer 
TE 
User-Agent 


4-5 ”HTTP/1.1 的 请 求 标 头 字段 的 语法 示意 

除了 ISON 之 外 ， 超 文本 传输 协议 (HTTP, Hypertext Transfer Protocol) 也 可 视 
为 一 种 DSL， 因 为 RFC 用 ABNF 定义 了 它 的 文法 多。HTTP 是 为 分 布 式 、 协 作 和 
超 媒体 信息 系统 而 设计 的 应 用 程序 级 别 协议 ， 被 全 球 互联 网 使 用 。 

4-5 中 的 Accept、Accept-Charset 和 Accept-Encoding 等 都 是 HTTP/1.1 请 求 标 
头 字 段 的 一 部 分 ，HTTP 的 部 分 语法 规则 如 图 4-5 所 示 ， 作 为 简单 举例 。 

对 于 图 文 排版 ，Typst 就 是 一 个 为 排版 设计 的 可 编程 的 标记 语言 和 软件 B31 。 
4-6 展示 了 这 个 软件 能 够 将 Typst 的 DSL 泻 染 为 富 文本 并 呈现 给 用 户 。 同 样 ，Typst 
的 DSL 也 能 够 由 BNF 来 表达 ， 图 4-7 呈现 了 Typst 的 部 分 语法 规则 作为 参考 。 


#set par(leading: @.5em) * Sine Function: 


- *Sine Function: * | 
- $f(x)=sin(x)$\ f(x) = sin(x) 


- *Cosine Function:* 。 Cosine Function: 
- $£(x)=cos(x)$ > f(x) = cos(x) 


(1) Typst DSL 样 例 (2) 处 理 后 的 富 文 本 


4-6 Typst 将 DSL ER HENK 


'V tD 
(!special)+ 
' special 


linebreak 
text 


escape 
quote 
strong 
emph 
raw 
link 


"*" markup '*' 
'_' markup '_' 
'" (raw | .*) 
"http"! 's'? '://' (!space)* 
CS? S) | CSE SR) 
'='+ space markup 

-' space markup 
digit* '.' space markup 

'/' space markup ':' space markup 
'<' ident '>' 

'@' ident 
block | ('#' hash-expr) 


math 

heading 

list 

enum 

desc 

label 

ref 
markup-expr : 


4-7 Typst 的 基本 语法 示意 中 
4.4 递归 下 降 的 解析 和 生成 器 


为 了 让 计算 机 程序 能 够 识别 DSL， 首 先 需 要 将 se LIG) 中 的 各 个 字 串 分 析 为 
符号 , 然后 根据 产生 规则 书生 成 语法 树 。 递 归 下 降 是 一 种 常见 的 解析 方法 , 它 是 一 
种 自 顶 向 下 的 解析 方法 ， 即 从 根 节 点 开始 ,递归 地 加 下 解析 ， 直 到 叶子 节点 。 递 归 
下 降解 析 器 的 每 个 非 终结 符 n E N 对 应 一 个 可 递归 的 函数 。 

包含 左 递归 的 形式 语法 不 能 被 简单 的 递归 下 降解 析 器 解析 ， 除 非 它 们 被 转换 
为 弱 等 效 的 右 递归 形式 。 一 些 研究 表明 ， 通 过 使 用 “缩减 >， 可 以 在 更 复杂 的 自 上 而 
下 的 解析 器 中 容纳 左 递归 语法 〈 以 及 所 有 其 他 形式 的 通用 CFG) Ma, 


value = async function(set: Setter<JSONValue>) ( 
const token = await this.token.read(); 
switch (token.type) { 

case TokenType.LeftBrace: 
await this.token.unread(token) ; 
await this.object(set); 
break; 

case TokenType.LeftBracket: 
await this.token.unread(token) ; 
await this.array(set); 
break; 

case TokenType.Digits: 

case TokenType.Negtive: 

case TokenType.Positive: 
await this.token.unread(token) ; 
await this.number(set); 
break; 

case TokenType.Bool: 

case TokenType.Null: 

case TokenType.String: 
await set(token.value); 
break; 

default: 
console.error(’ unexpected token: $(token) ); 


48 采用 异步 递归 下 降 的 解析 ISON 值 的 伪 代 码 
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如 图 4-4 所 示 的 JSON 语法 对 应 的 语言 作为 一 种 上 下 文 无 关 语言 ， 当 然 可 以 被 
递归 下 降 的 解析 方法 解析 为 应 用 程序 中 的 数据 结构 。 图 4-8 展示 了 一 个 异步 递归 下 
降解 析 器 的 示例 〈 基 于 TypeScript 语言 ， 但 请 当 作 伪 代 码 参 考 )。 


number = async function(set: Setter<number>) { 
// sign part (optional) 
const sign = await this.sign(); 
// integer part 
const intToken = await this.matchToken(TokenType.Digits); 
let num = parseInt(intToken.value as string); 
// fraction part (optional) 
const dotToken = await this.matchOptionalToken(TokenType.Dot); 
if (dotToken !== undefined) ( 
const intToken = await this.matchToken(TokenType.Digits); 
num += parseFloat( Ø.$(intToken.value) ); 
} 
// exponent part (optional) 
const eToken = await this.matchOptionalToken(TokenType.E); 
if (eToken !== undefined) { 
// sign part (optional) 
const sign = await this.sign(); 
// exponent part 
const intToken = await this.matchToken(TokenType.Digits); 
const int = parseInt(intToken.value as string); 
num *= Math.pow(10, sign * int); 


await set(sign * num); 


4-9 采用 异步 递归 下 降 的 解析 ISON 数字 的 伪 代 码 

采用 递归 下 降 的 解析 方法 , 通常 需要 一 些 工 具 函 数 , 例如 图 4-8 中 所 示 的 读 词 
元 Token 的 函数 token.read() 和 回 退 词 元 的 函数 token.unread() 。 这 相当 于 有 一 个 
指针 从 头 到 尾 的 扫 撞 竺 解析 的 字符 串 ， 在 必要 的 时 候 还 可 以 进行 回溯 。 

如 果 将 自 项 向 下 的 解析 器 反 过 来 ， 从 开始 符号 5S 开始 ， 从 语法 G 的 产生 规则 
书 递 归 地 向 叶子 节点 生成 终结 符 x CD, 就 可 以 得 到 一 个 递归 下 降 的 生成 器 ,在 每 
一 个 生成 函数 中 选择 不 同 的 递归 函数 调用 路 线 可 以 视 作 在 语言 L(G) 中 采样 ,直到 
达到 叶子 节点 (BOF 等 符号 也 视 作 叶子 节点 )， 语 言 生成 完毕 。 


45 ”异步 、 协 程 和 生成 器 函数 


自 顶 向 下 的 解析 器 有 一 个 典型 问题 : 通常 在 解析 字符 串 s e 5* 之 前 , FAE s 
应 该 已 经 完全 加 载 到 内 存 中 。 这 带 来 的 问题 是 如 果 在 一 开始 就 E L(G) 或 数据 在 
音 息 传输 过 程 中 损坏 ， 解 析 器 仍然 要 等 待 整个 信息 传输 完毕 ， 然 后 再 进行 解析 ， 当 
然 最 终 一 定 是 解析 失败 。 如 果 传 输 了 一 个 1024GiB 的 超大 JSON 数据 文件 , 然后 解 
析 失 败 了 ， 这 显然 带 来 了 解析 之 前 的 大 量 计算 损耗 。 
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对 于 大 语言 模型 也 是 同样 的 道理 , 如 果 语 言 模 型 输出 了 3000 个 Token 的 序列 ， 
然后 再 由 后 面 的 程序 解析 时 发 现 DSL AIR, 信息 就 无 法 被 识别 了 , 那么 大 量 的 神经 
网 络 计算 就 “浪费 ” 掉 了 。 解 决 这 个 问题 的 一 个 方案 是 采用 异步 和 协 程 。 

异步 是 指 多 个 操作 可 以 同时 发 生 ， 而 不 必 等 待 彼此 完成 (阻塞 ) (7 。 这 可 以 通 
过 多 种 方式 实现 , 例如 多 线程 、 多 进程 或 事件 驱动 编程 。 协 程 是 一 种 异步 的 计算 机 
程序 组 件 , 是 可 以 暂停 和 恢复 执行 的 函数 。 协 程 通常 用 于 实现 异步 编程 ,因为 它 允 
许 在 一 个 线程 中 执行 多 个 操作 ， 而 不 会 阻塞 其 他 操作 。 

ERA ag EEE) 是 协 程 的 一 个 子 集 。 尽 管 两 者 都 能 够 通过 多 次 
yield 表达 式 暂 停 执行 并 允许 在 多 个 入 口 点 重新 进入 ， 但 它们 的 主要 区 别 在 于 协 程 
能 够 控制 让 出 控制 权 后 程序 继续 执行 的 位 置 ， 而 生成 器 则 不 能 。 生 成 器 只 能 将 控 
制 权 转移 回 其 调用 者 (9。 换 言 之， 由 于 生成 器 函数 主要 用 于 简化 迭代 器 的 编写 , 其 
yield 语句 并 不 是 用 于 跳 转 到 另 一 个 协 程 ， 而 是 将 值 传 回调 用 它 的 父 级 例 程 。 

各 种 高 级 语言 所 支持 的 生成 器 函数 是 实现 协 程 的 一 种 方式 ， 它 可 以 生成 一 个 
值 的 序列 。 生 成 器 函数 使 用 yield 关键 字 来 暂停 当 执 行 〈 同 时 会 保留 当前 执行 的 上 
下 文 ) 并 产生 一 个 值 。 以 TypeScript 为 例 ， 生 成 器 函数 可 以 通过 next() 函数 来 恢复 
执行 ，return() 函数 来 结束 执行 ， 以 及 throw() 函数 来 抛 出 异常 。 

正如 图 4-9 中 所 示 的 async 和 await 关键 字 ，async 代表 一 个 函数 是 异步 的 〈 那 
么 它 的 调用 会 返回 一 个 生成 器 对 象 )，await 代表 等 待 一 个 异步 操作 完成 。 这 种 异步 
的 生成 器 函数 可 以 用 来 解析 和 生成 DSL， 因 为 它 可 以 在 解析 或 生成 过 程 中 暂停 和 
恢复 执行 ， 而 不 会 阻塞 其 他 操作 。 

例如 当 我 们 想 要 解析 一 个 形 如 -123.456e-7 的 数字 时 ， 我 们 可 以 用 异步 生成 器 
函数 来 实现 ， 如 图 4-9 所 示 。 首 先 解析 符号 部 分 '-' ， 其 次 解析 整数 部 分 123 > 


之 后 遇 到 小 数 点 o 则 解析 小 数 部 分 456' ， 最 后 遇 到 'e' 则 解析 指数 的 符号 部 分 
-和 指数 的 整数 部 分 ',7，。 在 每 一 步 解析 完成 后 ， 我 们 可 以 暂停 解析 器 ， 等 待 其 


他 操作 完成 ， 然 后 再 恢复 解析 器 继续 解析 。 

如 果 采 用 异步 的 递归 下 降解 析 器 , 同时 采用 异步 的 字符 串 读 取 器 (其 构建 了 一 
个 缓冲 区 用 于 加 载 字 符 串 )， 那 么 两 个 效 置 就 能 互相 配合 形成 协 程 。 这 样 的 解析 器 
可 以 一 边 加 载 字 符 串 , 一 边 解析 DSL 为 指定 的 数据 结构 , 并 且 可 以 在 解析 器 遇 到 错 
误 时 立马 停止 加 载 和 解析 ， 节 约 了 计算 资源 。 
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4.6 ”用 协 程 产生 领域 特定 语言 


协 程 的 实现 不 依赖 任何 编程 语言 的 特性 ， 虽 然 有 些 编程 语言 不 支持 yield 关键 
字 ， 但 是 任何 图 灵机 都 可 以 等 价 地 实现 yield， 因 为 yield 可 以 被 转换 为 “switch- 
case” 和 上 下 文 状态 的 存储 。 

实际 上 ， 异 步 是 基于 协 程 的 。 也 就 是 说 ， 任 何 async 和 await 都 可 以 被 等 价 地 
转换 为 生成 器 函数 和 yield。 因 此 ， 异 步 的 递归 下 降解 析 器 也 可 以 被 等 价 地 转换 为 
生成 器 函数 的 递归 下 降解 析 器 。 


re) aa CFG 解 析 器 采样 器 


引导 指令 二 构造 出 。 引导 指令 DSS 
缓 | 基于 协 程 的 . N 


4-10 一 种 通过 基于 异步 的 DSL 产生 装置 

本 文 设计 的 一 种 协 程 装置 如 图 4-10 所 示 。 它 接受 用 户 或 代理 程序 的 输入 流 并 
被 驱动 , 通过 异步 和 协 程 在 装置 内 维护 了 DSL 的 解析 和 生成 状态 。 每 一 次 对 装置 的 
驱动 被 称 为 一 次 询问 (询问 可 以 携带 信息 ， 也 可 以 是 空 询问 )， 每 一 次 询问 装置 都 
会 返回 一 个 引导 指令 。 引导 指令 可 以 携带 期 待 生成 的 符号 集 描述 、 精确 的 错误 信息 
和 恢复 信息 、 读 写 操作 信息 和 DSL 前 级 的 信息 等 , 用 户 和 或 代理 程序 接受 引导 指令 
继续 驱动 此 装置 , 直到 输入 EOF. 这 个 过 程 中 , 装置 异步 解析 输入 流 为 约定 的 数据 
结构 ， 确 保 被 应 用 程序 正确 处 理 。 

一 、 此 装置 接受 开发 者 预定 义 的 CFG, 通过 此 装置 的 CFG 解 析 器 构造 出 一 个 异 
步 引 导 指 令 生 成 器 。 此 生成 器 经 过 缓冲 区 接受 输入 源 的 驱动 符 ， 产 生 引导 指令 (In- 
struction DSL) 反馈 给 输入 源 。 输 入 源 也 可 以 是 采样 器 和 生成 器 。 采样 器 可 以 通过 随 
BL. 自 定义 逻辑 或 神经 网 络 等 方式 将 引导 指令 转换 为 一 个 DSL 符号 , 交 给 生成 器 产 
生 DSL， 同 时 驱动 异步 指令 生成 器 继续 产生 引导 指令 ， 直 到 得 到 EOF 指令 ， 完 成 
领域 特定 语言 的 生成 。 

二 、 此 装置 的 关键 点 在 于 采用 “异步 机 制 ” 和 “生成 指令 "。 具 体 来 说 ， 此 装置 第 
一 个 技术 关键 点 ， 异 步 语言 引导 和 生成 机 制 采 用 了 yield* (yield from) 。 


输入 源 驱动 符 
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let input = yield new Instruction(...args); 


411 产生 用 于 生成 DSL 的 指令 的 语句 〈 伪 代码 ) 
图 4-11 描述 了 此 装置 通过 yield 产生 Instruction DSL 用 于 指导 DSL 验证 、 解 
析 和 生成 ,其 中 args 是 这 条 指令 携带 的 信息 ，input 是 程序 B (DSL 验证 /解析 /生成 
器 ) 收 到 指令 后 向 程序 A 传递 的 信息 。yield 人 允许 程序 A (DSL 解析 程序 ) 立即 返 
回 一 个 指令 生成 器 (Generator) 给 程序 B 。 


let instruction = Generator.next(input); 


4-12 产生 用 于 生成 DSL 的 指令 的 语句 〈 伪 代码 ) 
如 图 4-12 ， 接 着 程序 A 在 运行 中 途 和 暂停 。 然 后 等 待 程序 B 用 询问 触发 指令 生 
成 器 的 next 方 法 , 恢复 程序 A 运行 ， 同 时 程序 A 拿 到 询问 , 程序 A 运行 到 yield 处 
产生 引导 指令 ,程序 B 通过 next 方法 的 返回 值得 到 程序 A 的 引导 指令 。 重 复 这 个 
过 程 ， 直 到 程序 B 不 断 触 发 程序 A 运行 到 DSL 分 析 相 关 算 法 结束 。 
yield* 指 的 是 将 DSL 引导 指令 的 产生 委托 给 另 一 个 程序 。yield* 同样 属于 部 分 
编程 语言 的 高 级 特性 。 通 过 yield* 使 得 DSL 的 形式 CFG 可 以 被 模块 化 表达 ， 且 可 
以 采用 递归 等 算法 验证 、 解 析 或 生成 DSL。 把 此 装置 启动 的 顶层 称 做 top 函数 ， 若 
此 装置 接受 JSON 的 CFG, M) top = yield* json 表示 装置 用 于 产生 JSON 。 


json = yield* select( 
number, 
string, 
object, 


array, 
false, 
true, 
null 


4-13 ”产生 用 于 生成 JSON 的 CFG 语句 〈 伪 代码 ) 
而 图 4-13 表示 JSON 由 数字 或 字符 串 或 列表 或 对 象 或 真 或 假 或 空中 的 一 个 构 
Wo E, 具体 number, string, array... 的 文法 是 怎样 的 也 可 以 根据 CFG 来 确定 。 上 
图 表示 中 false, true, null 是 终结 符 ， 因 为 其 由 确定 的 字符 串 “false”, “true” 和 “null” 
构成 ， 而 object, array 产生 过 程 可 以 产生 number, string, false, true, null 甚至 其 自身 
object EX array 形成 递归 定义 。 由 于 yield* 机 制 可 以 委托 异步 任务 , 因此 可 以 实现 递 
归 定 义 。 此 装置 可 以 根据 此 CFG 产生 等 价 的 异步 程序 ， 其 他 任何 CFG 也 是 这 样 。 


24 


此 装置 的 另 一 个 关键 点 在 于 异步 产生 引导 指令 (nstruction DSL), 3] S464 
验证 , 解析 和 生成 DSL 的 信息 。 也 能 够 根据 异步 输入 提供 精确 的 错误 信息 、 错 误 恢 
复 信息 等 。 接 下 来 将 特定 任务 上 的 最 小 信息 单位 称 作 token， 例 如 可 以 是 bit byte, 
char, number 等 ， 尤 其 可 以 是 字符 或 单词 。 具 体 来 说 ， 由 如 表 4-2 所 示 的 引导 指令 
包含 控制 指令 、 限 制 指令 、 建 议 指令 和 符号 指令 。 
表 4-2 AFER DSL 的 指令 举例 

指令 类 型 指令 举例 

仅 查 看 接 下 来 N 个 token 的 指令 、 读 入 接 下 来 N 个 token 的 指令 、 撤 销 前 N 次 读 

入 的 指令 、 产 生 某 些 token 的 指令 、EOF 指令 等 。 
判 下 一 次 读 入 具体 某 个 token 的 指令 、 限 制 下 一 次 读 入 token 仅 有 某 些 具体 可 选 
民 制 下 一 次 读 入 token 应 该 在 某 个 范围 的 指令 、 限 制 下 一 次 读 入 token 不 
【 体 的 指令 、 限 制 下 一 次 读 入 token 不 应 该 在 某 个 范围 的 指令 等 。 
已 读 入 的 倒数 第 N 个 token 不 符合 语法 的 指令 、 建 议 下 一 次 读 入 token 是 
些 的 指令 、 建 议 下 一 次 读 入 token 处 在 哪个 范围 的 指令 等 。 
进入 某 非 终 结 符 m e N 的 指令 , 离开 某 非 终结 符 的 指令 、 完 成 生成 某 终结 符 z € 


I 的 指令 等 。 


一 种 异步 DSL 解析 和 语言 生成 装置 Demo 
1 

21212 1=123 123++;; 

输 六 空 符号 

next null stop next null stop 
下 一 步 生 成 /提示 “输入 EOF 并 结束 清空 所 有 状态 
@ ) 刷新 页 面 自动 生成 刷新 页 面 
打开 连续 自动 生成 

let abc = 123; 


此 装置 “过渡 掉 "了 输入 源 的 “干扰 
生成 了 正确 的 DSL 


NeedOptionalChars(chars=[" ","\t","\n","\r"], advice=[" "]) NeedChar(char=""\u0000") 
WriteChar(char="c") ExpectChar(char="\u0000", got=";") 
NeedChar(char="c") NeedChar(char="\u0000") 
ExpectChar(char="c", got=" ") WriteChar(char=";") 
NeedChar(char="c") NeedChar(char=";") 
WriteChar(char="b") 引导 指令 生成 预览 


Naadrharl rharoihil 


ExpectChar(char=";", 


MaadCharl rhar=t st \ 


(1) DSL 产生 指令 的 交互 演示 (2) 在 一 个 简单 的 DSL 上 演示 
4-14 ”采用 Section 4.6 中 装置 的 一 个 交互 Demo 
4-14 是 采用 Section 4.6 中 装置 的 一 个 交互 Demo 预览 界面 。 这 个 Demo 提 
供 了 一 个 人 机 交互 界面 用 于 人 工 操作 此 装置 。 为 了 易于 理解 ,此 Demo 配置 了 一 个 
简单 语法 的 CFG， 即 形 如 “let abe = 123;” 的 简单 文法 。 交 互 主要 包含 三 部 分 : 符号 
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输入 框 、 控 制 按钮 、DSL 生成 预览 和 引导 指令 生成 预览 。 其 中 符号 输入 框 是 一 个 输 
入 源 ， 可 以 采集 键盘 输入 的 符号 ， 然 后 输入 到 本 装置 的 缓冲 区 。 控制 按钮 可 以 输入 
符号 输入 框 无 法 输入 的 控制 符 , 例如 下 一 步 (next) 、 空 (null) 、 结 束 符 (stop) 。 点 击 
自动 生成 按钮 ， 本 装置 能 够 生成 下 一 个 符号 一 次 , 若 自 动 生成 开关 打开 ， 则 会 一 直 
生成 到 DSL 结束 符 , 无 需 其 他 输入 。 刷新 页 面 按钮 可 以 重 置 本 装置 和 此 交互 界面 。 
DSL 生成 预览 区 域 显示 了 本 装置 从 输入 源 采 集 到 的 合法 的 DSL 前 级 。 引 导 指 令 生 
成 预览 区 域 显 示 了 本 装置 根据 输入 源 〈 输 入 框 或 采样 器 ) 生成 的 引导 DSL 生成 指 
令 ， 此 指令 能 够 进一步 指导 生成 装置 在 DSL 预览 区 域 生成 新 的 合法 DSL BÆR. 

一 个 异步 、 协 程 、 高 鲁 棒 性 的 DSL 产生 和 解析 装置 可 以 用 于 信息 传输 、 集 成 开 
发 、 教 育 软 件 、 数 据 挖掘 等 领域 。 表 4-3 介绍 了 Section 4.6 中 装置 的 用 途 。 

#43 ”基于 协 程 的 DSL 产生 装置 可 能 的 用 途 


可 能 具有 的 用 途 介绍 


此 装置 能 够 以 更 高 的 鲁 棒 性 异步 解析 DSL 为 数据 结构 并 驱动 其 他 程序 运行 ， 无 
信息 传输 | 需 等 待 整 个 传输 完成 之 后 再 进行 解析 ， 也 不 会 因为 传 入 消息 的 部 分 DSL 结构 
错 和 信息 丢失 而 导致 程序 月 溃 。 


此 装置 将 能 够 以 更 高 的 效率 响应 用 户 的 输入 ， 并 实时 反馈 DSL 生成 的 引 


出 错 信 息 ， 以 帮助 开发 者 输入 。 


装置 能 够 提供 精确 的 拼写 建议 、 错 误 反 馈 和 修复 建议 。 
教育 软件 E ` å Re 
习 向 导 ， 帮 助 学 生 快速 掌握 DSL 的 文法 。 


Gu 装置 能 够 从 大 量 文本 中 逐一 扫描 字符 ， 并 提取 符合 CFG 的 字符 
数据 挖掘 y 
P 找 到 目标 DSL 


48 ”本 章 小 结 


首先 , 本 章 介 绍 了 形式 语言 的 层次 和 基本 概念 , 给 出 了 上 下 文 无 关 语 言 与 产生 

式 的 关系 ， 然 后 介绍 了 形 如 BNF 的 元 语言 来 表示 语法 ， 并 列举 了 第 见 的 领域 特定 

语言 案例 和 它们 的 简要 语法 规则 。 之后, 本 章 介 绍 了 递归 下 降 的 语法 解析 器 和 生成 

器 , 提出 了 常见 解析 器 因 不 支持 异步 而 可 能 造成 计算 资源 浪费 的 问题 。 本 章 还 介绍 

异步 、 协 程 和 生成 器 函数 之 间 的 关系 〈 简 记 为 异步 C 生成 器 函数 C 协 程 )， 并 

给 出 了 一 个 基于 yield* 的 DSL 生成 装置 来 解决 上 述 问 题 。 最 后 , 本 章 介 绍 了 一 个 基 
于 协 程 的 DSL 生成 装置 的 交互 演示 和 可 能 的 用 途 。 
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5 生成 开发 者 预期 的 DSL 通过 语言 模型 采样 


有 了 基于 协 程 的 语言 产生 或 解析 装置 后 , 还 需要 一 个 输入 源 。 输入 源 可 以 是 人 
K, 也 可 以 是 特定 的 计算 机 程序 。 本 章 将 重点 介绍 通过 基于 自 回 归 模 型 的 语言 模型 
作为 输入 源 ， 并 用 约束 装置 限制 语言 模型 的 采样 ， 以 生成 开发 者 预期 的 DSL. 
51 。 自 回 归 语 言 模型 

在 统计 学 、 计 量 经 济 学 和 信和 号 处 理 等 领域 中 ， 自 回归 模型 (Autoregressive 
model) 是 一 种 描述 随机 过 程 的 模型 。 它 可 以 用 于 描述 某 些 随时 间 变 化 的 自然 过 程 。 
自 回归 模型 AR(p) 可 以 被 公式 (5-1) 描述 ， 其 中 X, 是 时 间 t 的 随机 变量 ，p 是 模 
型 的 阶 数 ，y; 是 模型 的 系数 ，s; 是 时 间 t 的 随机 误差 。 


p 
X, = >》 piX 十 Et (5-1) 


Al 

H 2017 年 ， 著 名 的 Transformer 模型 诞生 开始 ， 它 为 各 个 领域 提供 了 灵感 和 启 
发 。 不 同 领 域 的 研究 人 员 基 于 Transformer 研究 ， 衍 生出 了 一 系列 模型 ， 例 如 预测 
时 间 序 列 ， 搜 索 推 荐 领域 的 点 击 率 预 估 等 模型 ， 而 Transformer 是 一 种 基于 自 回 归 
HRAL, 2022 年 底 ，OpenAI 发 布 的 风靡 全 球 的 ChatGPT 正 是 自 回归 模型 的 著名 
代表 ， 是 一 种 从 左 往 右 学 习 的 模型 。 

自 回 归 模 型 利用 上 文 , 通过 估计 字母 表 忆 中 终结 符 的 概率 分 布 , 预测 下 一 个 终 
结 符 。 若 有 一 个 序列 z = (21,39) Zn)， 则 自 回归 模型 可 以 计算 出 z。; 的 概率 分 
Af plan.) Ha, e 5* 。 这 种 自 回 归 模 型 就 是 自 回 归 语 言 模型 ， 可 以 用 于 生成 
自然 语言 或 DSL 等 诸多 类 型 的 任务 。 


Pi) Sp Beg | T1, 02) Tn) 


PÅL; | £1, £9, ---,2;_1) 


= 


II 
ran 


52 ”语言 模型 生成 DSL 的 基本 思路 


接 下 来 以 JSON 文法 为 例 ,举例 语言 生成 和 修复 的 基本 逻辑 。 若 输入 源 已 经 答 
入 了 片段 ， 那 么 本 装置 可 以 根据 JSON 的 CFG 知道 下 一 个 字符 必须 是 冒 
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T 


号 。 为 什么 是 冒号 ? 这 需要 查看 ISON 官网 1! 以 McKeeman Form 约定 的 JSON 语法 。 
如 图 4-4 所 示 的 object, members 和 member 的 定义 。 


object := '{' ws ')' 
'{' members '}' 


members := member 
member ',' members 
member := ws string ws ':' element 


5-1 

我 们 始终 忽略 空白 字符 (ws, EX 的 产生 路 径 是 object 一 members 
— member ， 且 member 已 经 产生 到 string 的 末尾 了 。 要 产生 member ,下 一 个 字符 
只 能 是 冒号 。 输 入 源 的 下 一 个 字符 如 果 不 是 冒号 ， 就 必然 不 符合 ISON 语法 。 

同 理 ， 上 文 , 的 下 一 个 字符 只 能 是 双 引 号 ， 因 为 根据 CFG, KE 
的 逗号 意味 着 这 个 object 的 members WIZ, JE GJE MD GE HT members ， 
而 members 以 string HX, string 的 开头 必须 是 双 引 号 。 

DA JSON 为 例子 ， 图 5-2 中 的 大 语言 模型 表示 ISON 的 第 一 个 字符 只 能 是 集合 
D’ E’ t’ te, /1-9/, -tf om] HABER, GERE JSON, 
生成 器 只 能 从 这 个 集合 中 选择 一 个 字符 作为 JSON 字符 串 的 开头 。 


JSONÅT EBs, M (5) 是 什么 ? (A) 


在 JSON 的 上 下 文中 ， 在 JSON (JavaScript Object Notation) 的 上 下 
文中 ， 我 们 通常 考虑 JSON 的 语法 规则 来 确定 哪些 字符 囊 或 字符 可 以 
出 现在 特定 的 上 下 文中 。JSON 是 一 种 轻 量 级 的 数据 交换 格式 ， 它 基 
于 JavaScr ipt 的 对 象 字 面 量 语法 ， 但 是 独立 于 语言 ， 被 许多 编程 语 
言 所 支持 。 
如 果 我 们 考虑 一 个 空 字符 串 s 作为 前 级 ， 那么 我 们 想 要 找 出 所 有 
可 能 的 字符 m ， 使 得 sm 是 一 个 有 效 的 JSON 结 构 的 前 级 。 在 JSON 
中 ， 一 个 结构 可 以 是 : 

一 个 对 象 ， 以 { 开始 

一 个 数组 ， 以 【 开始 

一 个 字符 串 ， 以 ”开始 

一 个 数字 ， 可 以 以 任何 数字 或 - 开始 

一 个 布尔 值 ， 以 t (true) 或 f (false) 开始 

一 个 nul1 值 ， 以 n 开始 
因此 ， 对 于 空 字符 串 s ， 集 合 M(s) 将 包含 所 有 可 以 作为 JSON 结 构 
开头 的 字符 : 
Mesti ore Se Se 
E "tt, Fn] 
这 里 包括 了 所 有 的 数字 字符 ， 因 为 一 个 数字 可 以 以 任何 数字 开头 ， 
以 及 符号 - ， 国 为 一 个 负数 也 是 一 个 有 效 的 JSON 数 字 。 注 意 ， 这 个 
集合 不 包括 空格 、 制 表 符 或 其 他 空白 字符 ， 因 为 虽然 它们 可 以 出 现 
在 JSON 文 本 中 ， 但 它们 本 身 并 不 构成 一 个 独立 的 JSON 结 构 。 


5-2 [E] LLMs 询问 关于 JSON 可 能 的 开头 字符 集 


"https://www.json.org/json-en.html 
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当 输 入 了 正确 的 字符 , 例如 输入 了 字符 '-' 那么 下 一 个 字符 只 能 是 '8' 或 /1-9/ 
(这 表示 了 只 能 匹配 1,2, 3,.…, 9 其 中 的 一 个 字符 的 JavaScript 正则 表达 式 ), 因为 上 
文 '-' 导致 接 下 来 要 构成 JSON 只 能 继续 构成 number 并 以 此 类 推 。 


> JSON.parse(‘{ "key": 0°) 
& PUncaught SyntaxError: Expected ',' or '}' after property VM234:1 


value in JSON at position 10 (line 1 column 11) 
at JSON.parse (<anonymous>) 
at <anonymous>:1:6 


图 5-3 Microsoft Edge 浏览 器 无 法 给 出 足够 精确 的 提示 
以 Microsoft Edge 浏览 器 的 V8 JavaScript 运行 时 举例 ， 如 图 5-3 Prax, Edge 显 
示 期 待 的 字符 仅 有 ',' 和 '}' 而 缺少 了 '.'，'E'，'e' 。 因 此 它 不 能 给 出 完整 和 精 太 
的 错误 和 恢复 信息 。 其 他 Parser Generator〔 例 如 Antlr、Lark 等 ) 的 Parser 也 是 类 
似 的 情况 ， 无 法 做 到 给 出 错误 范围 ， 错 误 恢复 建议 精确 到 足以 生成 DSL 的 程度 。 


cw 


输入 JSON EX 
JSON 上 文 


1 { "key": 0 


期 待 的 字符 /正则 


在 解析 到 第 10 个 字符 时 ， APNTs 如 下 : 


期 待 值 (Char/RegExp) 


期 待 值 (Char/RegExp) 


图 5-4 计算 所 有 可 能 的 下 一 个 字符 集 的 装置 演示 

5-4 所 示 的 是 本 研究 的 装置 在 ISON 作为 CFG 的 一 个 可 视 化 例子 ， 当 解析 
时 ， 此 装置 给 出 了 更 加 完整 和 精确 的 信息 以 供 DSL 的 产生 。 

5-5 给 出 了 一 个 示意 图 , 它 一 定 程度 上 表达 了 ISON CFG 中 的 符号 构成 的 产 
ERR. 可 以 发 现 这 个 图 的 根 节 点 是 json 节点 , 并 且 图 中 明显 有 众多 环 。 如 果 让 语 
言 模型 产生 JSON， 就 相当 于 它 在 这 样 一 个 复杂 的 、 迷 宫 一 般 的 图 上 行走 、 选 择 路 
线 和 识别 终点 。 这 可 以 作为 语言 模型 如 果 不 依赖 更 好 的 解码 装置 , 就 难以 生成 更 长 
的 、 合 法 的 JSON 字符 串 的 原因 。 
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json 


value 


object array boolean 


members 


elements på 


string 


characters 


character number 


escape integer | fraction exponent 
hex sign 


5-5 JSON CFG 的 一 个 有 环 图 示意 图 
AE FRR SU, ， 上 下 文 无 关 文法 G 和 语言 L(G) ， 将 公式 (5-2) 中 的 P(G) 
HINES L(G) 上 的 前 级 语言 。 
P(G) = fa € X*|3y € &* : cy € L(G)} (5-2) 
Mp(s) = {m € d|sm € P(G)} (5-3) 
若 有 一 个 装置 ， 能 够 在 串 se P(G) 的 基础 上 给 出 下 一 个 合法 的 词 元 集合 
MMp(s) ， 然 后 语言 模型 根据 公式 (5-3) 中 的 Mp) 上 的 概率 分 布 p(z%41) 采样 ， 就 
可 以 生成 新 的 se P(C) 直到 装置 从 语法 G 中 产生 结束 符 , 模型 就 以 生成 到 se 
L(G) 而 停止 继续 生成 。 这 就 是 从 语言 模型 生成 开发 者 预期 的 DSL 的 方法 。 
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53 ” 自 回 归 语言 模型 的 约束 解码 器 


自从 来 自 ElementAI 的 Torsten Scholak 等 人 于 2021 年 提出 了 增 量 解析 来 约束 
语言 模型 的 自 回 归 解 码 (PICARD) 外 之 后 ，MIT 的 研究 人 员 采 用 基于 Earley 解析 的 
算法 来 约束 大 模型 生成 办， 其 基本 思路 是 构造 了 一 个 Parser 能 够 根据 语言 模型 产 
生 的 字 串 9 下 计算 得 出 语言 L(G) 的 一 个 前 级 yesx E P(G) 和 下 一 个 合法 的 词 元 
集合 Mp(,。,)， 然 后 再 经 由 语言 模型 得 出 一 个 具体 的 w* © Mpa) 将 其 添加 到 
yprefix 末尾 ， 得 到 新 的 DSL WA, AEG |e L(G) ， 如 图 5-6 ce. 


CONSTRAINED-GENERATION (x € Y*,G): 
lyse > 初始 化 空 så 

2 while True: 

y + decode(Piru(: |x, G, 9, ---)) 

Jg- y > EREHER I 

ify € L(G): > SIU y € L(G) 
return / > 返回 预期 的 DSL 

else: 
Yprefpo Mp (Ypretix ) = Generator(y, G) 


w* <— arg max Pum (wlw E Mp (Yprefix) > Yprefix> a) 
g <— VYprefix ` w” > BA y yE P(G) 


5-6 ”约束 大 模型 生成 DSL 

现 有 工业 实践 和 学 术 研究 中 , 尚未 采用 协 程 来 实现 图 5-6 中 的 Generator 装置 。 
且 容 易 知道 , 上 述 算法 在 每 一 次 自 回 归 当 中 都 需要 验证 一 次 乡 E L(G), 就 算是 验证 
的 复杂 度 随 | 引 KE n AE O(n) (这 是 最 好 的 情况 ， 也 是 复杂 度 的 下 限 )， 那 么 生 
成 长 度 为 $9 的 复杂 度 至 少 为 O(n?) = XT" O(n) 。 

本 研究 采用 的 协 程 因为 可 以 在 解析 或 生成 过 程 中 暂停 以 及 恢复 ， 因 此 自然 地 
保留 了 DSL 解析 的 上 下 文 状态 ， 不 需要 在 每 一 次 验证 或 生成 新 词 元 时 都 从 头 扫描 
一 遍 字 符 串 ， 这 为 降低 约束 解码 的 复杂 度 提 供 了 技术 支持 。 


54 用 DSL 生成 器 和 约束 装置 采样 


那么 如 何 具体 设计 一 个 采用 协 程 的 DSL 生成 器 ， 并 将 它 作为 语言 模型 的 约束 
装置 来 采样 开发 者 预期 的 领域 特定 语言 呢 ? 本 文 提出 了 YieldLang, 一 个 采用 Python 
元 编程 技巧 实现 的 基于 协 程 的 DSL 生成 器 。YieldLang 的 设计 思路 是 将 形式 语法 的 
符号 统一 处 理 为 可 迭代 产生 字符 串 的 装置 , 同时 跟踪 符号 进出 的 调用 栈 , 以 便 生 成 
DSL 的 过 程 中 能 够 提供 精确 的 错误 信息 和 恢复 信息 。 此 外 , 当 YieldLang 的 生成 器 
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4 
5 
6 
7 
8 
9 
0 


— 
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装载 语言 模型 采样 器 时 ， 它 的 组 合子 函数 能 够 调用 大 模型 来 从 有 限 的 可 能 中 采样 
路 径 并 递归 下 降 的 生成 DSL。 
5.4.1 DSL 生 成 器 的 一 个 具体 实现 


本 文采 用 Python 实现 了 基于 协 程 的 DSL 生成 器 ， 其 关键 点 在 于 文本 生成 器 类 
TextGenerator 中 的 flatten 递归 函数 ， 如 图 5-7 所 示 。 它 使 用 元 编程 的 方法 将 形式 
文法 里 的 符号 (包括 终结 符 和 非 终 结 符 ) Symbol 通过 委托 (yield from) 等 方式 统一 
地 转换 为 产生 字符 串 的 可 迭代 装置 。Symbol 可 以 是 可 转换 为 字符 串 的 Strable、Uni- 
code 以 外 的 特定 Token、 空 〈 包 括 None、 空 串 、 代 表 空 的 Token 等 )、 可 和 迭代 产生 
上 述 类 型 的 Iterable 以 及 可 以 产生 上 述 类 型 的 Lambda 函数 。 


def flatten(self, symbol: Symbol) -> Iterable[str]: 
if callable(symbol): 
symbol = symbol() 
if symbol is None: 
yield EmptyString 
elif isinstance(symbol, (str, int, float, bool)): 
yield str(symbol) 
elif isinstance(symbol, Token): 
yield from self. process token(symbol) 
elif isinstance(symbol, SamplerCallData): 
yield from self. process sampler(symbol) 
elif iterable(symbol): 
yield from self. process iterable(symbol) 
else: 
raise ValueError(f'Invalid symbol: {symbol}') 


5-7 YieldLang 14455 AWEKA EF RARE 
如 果 这 个 装置 仅仅 能 够 生成 合法 DSL, 似乎 还 是 有 点 扫兴 。 季 好 , 本 文 设 计 了 
track symbol 函数 , 这 是 一 个 用 于 记录 符号 进出 情况 的 装饰 器 , 如 图 5-8 所 示 。 它 把 
递归 下 降 的 函数 调用 参数 都 记录 到 了 一 个 调用 栈 当中 。 在 生成 器 外 部 , 总 是 能 够 获 
取 调 用 栈 的 栈 顶 就 可 以 获取 符号 名 等 信息 。 当 调用 栈 发 生变 化 时 , 就 可 以 得 知 DSL 
的 生成 情况 ， 当 然 也 可 以 跟踪 整个 调用 栈 ， 并 把 它 恢复 成 一 个 语法 树 。 


def track symbol(fn: T) -> T: 
@functools.wraps(fn) 
def wrapper(*args, **kwargs): 
self = args[@] if args else None 
if isinstance(self, TextGenerator): 
self.sampler.call_stack.append((fn, args, kwargs)) 
yield from fn(*args, **kwargs) 


self.sampler.call_stack.pop() 
else: 
fn name = fn. name _ 
class name = TextGenerator. name — 
raise ValueError(f'(fn name) is not a method of (class name)') 


return wrapper 
5-8 YieldLang 跟踪 符号 进出 的 装饰 器 函数 
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此 外 , 此 装置 的 文本 生成 器 类 TextGenerator 中 还 统一 定义 了 Top 函数 接口 , 代 
表 形 式 语言 中 的 开始 字符 Se N ， 它 是 生成 器 产生 DSL 的 唯一 入 口 。 通 过 Python 
的 元 编程 技巧 ， 例 如 装饰 器 (Decorator), HAT (Combinator), PÅ TF (Functor) 等 方 
式 , 可 以 实现 一 套用 于 产生 DSL 的 应 用 程序 开发 框架 。 基于 此 框架 , 开发 者 能 够 在 
Python 的 语法 基础 上 书写 元 语言 ， 此 框架 被 本 文 称 作 YieldLang。 


542 ”YieldLang 的 一 些 DSL 生 成 器 


class PairGenerator(TextGenerator): 
def top(self): 
yield self.pairs 


def pairs(self): 
yield select( 
(self.pair), 


(self.pair, self.pairs), 


def pair(self): 
yield optional( 
'(", self.pairs, ')' 
) 


5-9 YieldLang 下 的 一 个 合法 括号 对 生成 器 
如 图 5-9 所 示 ， 这 是 一 个 生成 合法 括号 对 的 生成 器 。 它 的 top 函数 是 生成 器 的 
入 口 ， 它 调用 了 pairs Kr, M pairs 函数 又 调用 了 pair 函数 。pair 函数 是 一 个 产 
生 括号 对 的 函数 , 它 产生 了 两 种 可 能 的 括号 对 : 空 串 和 括号 对 。 这 个 生成 器 可 以 生 
成 任意 数量 的 合法 括号 对 ， 例 如 O, (0), (COO, (OO)O,... 等 等 。 其 中 select 组 
合子 函数 用 于 选择 一 个 采样 路 径 ，optional 函数 等 价 于 如 图 5-10 所 示 的 代码 。 


def optional(self, *args: Symbol): 
yield select( 


3 


args 


5-10 YieldLang 中 optional 组 合子 的 定义 
另 一 个 较为 复杂 的 例子 是 生成 简单 的 Mermaid 流程 图 ， 其 生成 器 代码 如 
5-11 所 示 。 其 中 的 Python 表达 式 (yield self.graph name) 会 得 到 一 个 符号 产生 的 字 
符 串 , 然后 根据 这 个 字符 串 的 内 容 , 选择 产生 Flowchart (作为 一 个 简单 的 例子 , 这 里 
不 产生 其 他 类 型 的 Mermaid 图 )。 值 得 一 提 的 是 (yield A) 等 价 于 yield (yield A). 
join 用 于 在 最 外 层 符号 序列 中 的 每 相 邻 两 个 符号 之 间 揪 入 一 个 特定 的 符号 。repeat 
用 于 重复 产生 一 个 符号 指定 次 数 。 
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class MermaidGenerator(TextGenerator): 
def top(self): 
yield self.mermaid 


def mermaid(self): 
match (yield self.graph name): 
case 'flowchart': 
yield self.flowchart 


graph name(self): 
yield select('flowchart') 


flowchart(self): 
yield (' ', self.flowchart type, '\n') 
yield join('\n', self.flowchart rules) 


flowchart type(self): 
yield select('TD', 'LR') 


flowchart rules(self): 

rand times = randint(19, 29) 

single line = (* ' * 4, self.flowchart rule) 
yield from repeat(single line, rand times) 


flowchart rule(self): 
yield self.node 
yield ' --> ' 

yield self.node 


node(self): 
yield select(*range(1, 19)) 


5-11 YieldLang 下 的 一 个 简单 流程 图 生成 器 

如 果 采 用 随机 的 class Randomsampler(Sampler) 采样 器 ( 它 在 每 一 个 交叉 路 口 随 

机 选择 一 条 路 径 递 归 下 降 的 采样 )， 那 么 图 5-11 的 基于 YieldLang 的 生成 器 可 以 产 
生 形 如 图 5-12 中 的 随机 流程 图 (没有 具体 含义 ， 仅 供 形式 参考 )。 


5-12 Mermaid Generator 随机 生成 的 四 个 流程 图 演示 
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def print sample rules(): 
rules: set[str] = set() 
for _ in range(sample times): 
sampler = RandomSampler() 
for _ in JSONGenerator(sampler): 


last_symbol = None 


for symbol name in sampler.symbol names(): 
if last symbol and symbol name: 
rule = f'flast symbol) --> (symbol name)" 
if rule not in rules: 
rules.add(rule) 
print(rule) 
last symbol = symbol name 


25-13 ”从 已 有 的 生成 器 中 随机 采样 产生 规则 
通过 随机 采样 和 track symbol 函数 ， 还 可 以 通过 5-13 所 示 的 
print_sample_rules 方法 随机 采样 此 生成 器 下 的 CFG 中 的 产生 规则 。 这 个 方法 可 以 
用 于 生成 DSL 的 语法 树 或 产生 规则 图 (采用 Mermaid 来 解析 和 泻 染 这 种 图 ) 。 
5-5 就 是 采用 这 个 方法 生成 的 JSON 语法 的 产生 规则 图 。 

JSON 作为 工业 界 非常 常用 的 一 种 DSL， 本 文 提出 的 YieldLang 显然 也 能 够 用 
定义 它 的 语法 和 构造 对 应 的 生成 器 装置 。 图 5-14 就 给 出 了 完整 的 JSON 语法 的 
生成 器 代码 ， 它 的 CFG 是 按照 JSON 官网 的 McKeeman Form 所 书写 的 。 

JSONGenerator 中 的 accept 函数 用 于 定义 这 个 符号 所 能 接受 的 字符 集 (或 者 说 
是 能 够 产生 的 终结 符 集合 accept(...) CD), ， 其 中 invalids 参数 用 于 定义 这 个 符号 
所 不 能 接受 的 字符 集合 ，range 参数 用 于 定义 这 个 符号 所 能 接受 的 字符 范围 。 有 了 
JSONGenerator 后 ， 通 过 随机 采样 就 能 够 生成 任意 长 度 的 随机 ISON 字符 串 。 
表 5-1 随机 采样 生成 的 JSON 字符 串 样 例 


JSON 样 例 对 象 类 型 字符 串 长 度 


null null (none) 4 
a string (string) 5 
false boolean (boolean) 5 
-39.01 number (float) 6 
-96008 number (integer) 6 
"WH" string (string) 8 
"/sa?\"" string (string) 9 
[[[true]]] array (array) 10 
{"Zis": []} object (dictionary) 13 


表 5-1 列举 了 随机 采样 生成 的 JSON 字符 串 的 不 同样 例 , 它们 的 类 型 和 长 度 各 
不 相同 。 需要 注意 的 是 ， 随 机 JSON 字符 串 样 例 是 没有 任何 语义 的 ， 这 里 仅 表示 其 
语法 结构 ， 其 中 的 “乱码 ”是 由 于 随机 从 Unicode 字符 集中 挑选 字符 而 生成 的 。 
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class JSONGenerator(TextGenerator): 
def top(self): 
yield self.json 
def json(self): 
yield self.element 
def object(self): 
yield select( 
('{', self.ws, ')'), 
('{', self.members, '}') 
members(self): 
yield select( 
(self.member), 
(self.member, ',', self.members), 


member(self): 
yield (self.ws, self.string, self.ws, 
array(self): 
yield select( 
(‘[', self.ws, ']'), 
('[', self.elements, ‘]') 


:', self.element) 


elements(self): 
yield select( 
(self.element), 
(self.element, ',', self.elements) 


string(self): 

yield ('"', self.characters, '"') 

characters(self): 

yield optional(self.character, self.characters) 

character(self): 

yield select( 
accept(range=("(uee20", '\uffff'), invalids=(""", '\\')), 
("NN ', self.escape) 


escape(self): 
yield select( 
*'\\"/bfnrt', 
('u', repeat(self.hex, 4)) 


) 

hex(self): 

yield select( 
self.digit, 
select(*'ABCDEF'), 
select(*'abcdef') 


) 
digit(self): 
yield select('@', self.onenine) 
onenine(self): 
yield select(*'123456789' ) 
number(self): 
yield (self.integer, self.fraction, self.exponent) 
integer(self): 
yield select( 
(self.digit), 
(self.onenine, self.digits), 
('-', self.digit), 
('-', self.onenine, self.digits) 


) 

digits(self): 

yield select( 
(self.digit), 
(self.digit, self.digits) 


) 
fraction(self): 
yield optional('.', self.digits) 
exponent (self): 
yield optional(select( 
('E', self.sign, self.digits), 
('e', self.sign, self.digits) 


)) 
sign(self): 
yield optional(select('+', '-')) 
boolean(self): 
yield select('true', 'false') 
null(self): 
yield "null" 
value(self): 
yield select( 
self.object, 
self.array, 
self.string, 
self.number, 
self.boolean, 
self.null 


) 
element(self): 
yield (self.ws, self.value, self.ws) 
ws(self): 
yield optional(select( 
， self.ws), 

self.ws), 

self.ws), 

self.ws) 


5-14 YieldLang 下 的 一 个 JSON 字符 串 生 成 器 
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5.43 ”如 何 让 


语言 模型 选择 采样 路 径 


仅仅 有 随机 采样 器 肯定 是 不 够 的 ， 为 了 利用 语言 模型 的 能 力 生 成 真正 有 语 
义 的 DSL, 需要 让 语言 模型 选择 采样 路 径 。 然 而, 语言 模型 的 神经 网 络 输出 层 能 够 
代表 下 一 个 词 在 词汇 表 史上 的 概率 分 布 p(z,,,1) ， 但 是 却 不 能 给 出 非 终结 符 的 概 
率 分 布 。 这 导致 我 们 并 不 能 直接 的 让 语言 模型 在 规则 中 采样 路 径 , 而 是 首先 需要 找 
到 “分 岔路 口 " 中 每 一 个 路 口 对 应 的 非 终结 符 A E N 的 First 集合 (如果 某 个 路 径直 


接 到 达 终 结 符 ， 


那么 就 可 以 直接 选取 它 )。 


在 形式 语言 和 编译 原理 中 ，First 集合 和 是 用 于 预测 上 下 文 无 关 文 法 (CFG) 中 
某 个 非 终 结 符 的 下 一 个 输入 符号 的 重要 概念 。First 集合 包含 一 个 非 终结 符 可 能 产 


生 的 第 一 个 符号 的 集合 ， 它 用 于 预测 某 个 非 终结 符 是 否 可 以 推导 出 某 个 符号 。 
对 于 一 个 非 终结 符 4， 其 First 集合 First (A) 由 以 下 三 条 规则 定义 : 
(1) 如 果 4 可 以 直接 推导 出 空间 < ， 则 = 属于 First(A). 
(2) 如 果 4 可 以 推导 出 以 某 个 终结 符 we DI 开始 的 字符 串 ， 则 a € First(A). 


(3) 如 果 A 
显然 根据 
First 和 集合。 这 


可 以 推导 出 以 非 终结 符 B 开 始 的 字符 串 ， 则 First(B) C First(A)。 
First 集合 的 三 条 规则 可 以 设计 一 个 迭代 产生 式 的 算法 来 计算 得 出 
个 算法 的 基本 思路 是 首先 初始 化 First(4) = 人 ， 然 后 不 断 迭 代 直 到 


First(A) 不 再 增 大 。 在 每 一 次 迭代 中 ， 对 于 PP 中 每 一 个 产生 式 4 >a, WR a 是 
终结 符 或 者 空 串 ， 那 么 就 把 a 加 入 到 First(A) 中 。 如 果 a 是 非 终 结 符 ， 那 么 就 把 
First(a) 中 的 所 有 元 素 加 入 到 First(A) 中 。 这 个 算法 的 复杂 度 是 O( YI* |P); Å 


中 | | EIER 
定义 的 上 下 文 无 关 文 法 ， 可 以 由 图 5-15 所 示 的 基础 算法 求 得 。 


但 图 5-15 


i 符 的 数量 ，|P| 是 产生 式 的 数量 。 对 于 四 元 组 G = (N, 5, P, S) 所 


FIRST (A € N): 
Is} 
2 for (A > a) in P: 
if (a > e): 
s+} sUle) 


else if (a =a € >): 
s + sU {a} 
elseif (a = BEN): 
s + s U First( B) 
9 return s 


5-15 ”一 个 求 First 集合 的 算法 
所 示 算 法 的 问题 在 于 ， 不 能 处 理 存在 左 递归 的 情况 。 左 递归 是 指 一 


个 非 终结 符 在 产生 式 的 右 部 以 自身 开头 , 例如 4 一 (Aa | b) 在 这 种 情况 下 求解 4 
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的 First 集合 时 会 陷入 无 限 循环 。 因 为 4 的 First 集合 可 能 包含 4 ， 所 以 求解 4 的 
First 集合 时 需要 再 次 求解 4 的 First 集合 ， 如 此 形成 死 循 环 。 此 外 ， 如 果 多 个 符 
号 之 间 形 成 了 间接 的 左 递归 ， 同 样 也 会 遇 到 死 循 环 的 情况 。 

为 了 消除 左 递归 的 问题 , 有 两 种 方法 , 一 是 开发 人 员 在 书写 DSL 的 文法 的 时 候 
就 避免 左 递归 ， 二 是 更 进一步 在 生成 器 构造 的 时 候 根据 文法 规则 自动 消除 左 递归 。 
当然 , 对 于 具有 通用 能 力 的 大 语言 模型 , 求解 不 出 First 集合 也 没关系 , 通过 添加 指 
令 让 语言 模型 直接 选择 非 终 结 符 (因为 非 终 结 符 本 身 也 可 以 转换 为 字符 串 , 甚至 开 
发 者 可 以 描述 这 个 非 终 结 符 , 从 而 能 够 构造 出 一 个 或 多 个 属于 大 语言 模型 字母 表 也 
的 字符 串 来 让 大 模型 采样 )。 这 样 语言 模型 就 能 够 从 DSL 语法 中 采样 路 径 了 。 
图 1-3 所 示 的 引导 大 语言 模型 生成 可 解析 内 容 的 系统 也 是 利用 语言 模型 作为 
DSL 生成 器 的 采样 器 的 流程 图 。 其 流程 为 : i 输入 提示 词 , 语言 模型 从 上 文 为 空 
始 生 成 。 ii. FEZ DSL 解析 和 语言 生成 装置 产生 引导 指令 , 其 被 语言 模型 引导 装置 转 
化 为 下 一 个 合法 的 词 元 集合 。 这 .语言 模型 引导 装置 作用 于 NN (神经 网 络 ) 的 输出 
层 , 神经 网 络 输出 层 的 Tensor 通过 后 处 理 器 得 到 新 的 Tensor , 然后 通过 softmax FÅ 
数 转 换 为 语言 模型 词汇 表 的 概率 表示 ， 最 后 经 过 采样 器 得 到 具体 某 一 个 tokens iv 
语言 模型 引导 装置 采用 语言 模型 的 词汇 表 对 应 的 Tokenizer 将 下 一 个 合法 的 词 元 集 
合 。v. 词汇 偏 置 ， 语言 模型 引导 装置 通过 为 Logits 和 New Logits 之 间 装 入 一 个 新 
的 约束 器 processor ， 用 以 提高 概率 分 布 Tensor 中 合法 ID 位置 值 的 大 小 , 降低 不 合 
法 DD 位 置 值 的 大 小 。vi. 经 过 模型 的 解码 器 ， 模 型 输出 正确 的 新 token， 形 成 新 的 
DSL 或 DSL 的 前 级 。 vii. 通过 next 方法 输入 token 到 异步 装置 ， 得 到 新 的 引导 指 
令 。 viii. 回 到 步骤 让 ， 根 据 当前 任务 的 上 下 文 继续 生成 ， 直 到 异步 装置 产生 结束 
指令 ， 开 发 者 预期 的 DSL 生成 完毕 ， 此 DSL 是 一 定 能 够 被 解析 的 。 


55 ”本 章 小 结 


本 章 先 介绍 了 语言 模型 常 基于 的 自 回 归 模 型 , 然后 以 JSON 语法 为 例子 阐述 了 
JSON 字符 串 的 产生 思路 , 并 指出 当前 常见 解析 器 的 不 足 。 接 着 , 本 章 给 出 了 前 绥 语 
å P(G) 和 装置 Mp(s) 的 数学 定义 。 之 后 本 章 介绍 了 自 回 归 语言 模型 的 约束 解码 
策略 ， 然 后 本 文 用 Python 语言 具体 设计 了 一 个 DSL 生成 框架 ， 并 取 名 YieldLang， 
还 举 了 几 个 用 YieldLang 作为 元 语言 书写 DSL 的 CFG 的 例子 。 最 后 ， 本 章 介 绍 了 
让 语言 模型 在 生成 器 中 选择 采样 路 径 的 方法 和 First 集合， 最 终 给 出 了 一 个 引导 大 
语言 模型 生成 可 解析 内 容 的 系统 的 具体 流程 描述 。 
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6 本 研究 在 语言 模型 生成 DSL 领域 取得 优势 


我 们 在 三 个 测试 集中 测试 了 GPT-2 和 Gemma 两 个 模型 在 温度 设置 为 0.7 情况 
下 的 DSL 下 游 任务 的 能 力 。 JSON Text 任务 考虑 模型 在 完整 JSON 文法 下 生成 特定 
的 JSON 子 集 下 数据 结构 的 准确 率 。Mermaid 任务 考虑 模型 在 Flowchart 的 一 个 子 
集 DSL 下 生成 能 被 Mermaid.js!? RIER JI SVG 格式 的 矢量 图 的 成 功率 。 Function 


H 


Call 任务 考虑 模型 生成 Python 函数 调用 表达 式 并 成 功 调 用 的 成 功率 。 


在 不 使 用 DSL 的 约束 装置 (Origin) 和 使 用 本 文 实现 的 Yield Lang 和 大 语言 模 


型 采样 装置 (Ours) 两 种 情况 下 ， 后 者 的 性 能 显著 高 于 前 者 ， 就 如 表 6-1 所 示 。 


表 6-1 本 研究 在 多 种 DSL 生成 任务 上 的 分 数 


JSON Text Mermaid Function Call 
模型 名 称 一 一 一 a = 

Origin Ours Origin Ours Origin Ours 
GPT-2 B 


GPT-2 XL E- 
Gemma-2B mm. 


Gemma-7B BE 


ER, 由 于 在 生成 器 产生 DSL 时 , 某 些 路 径 总 是 能 被 程序 确定 的 , 无 需 大 语言 
模型 进行 采样 , 这 节约 了 大 语言 模型 产生 DSL 所 需要 的 采样 次 数 。 经 过 实验 , 产生 


不 含有 语义 的 ISON 字符 串 ， 最 理想 的 情况 下 C X € Unicode) KA FERIA 


数 减少 到 原来 的 16.5% ， 随 字符 串 长 度 的 变化 如 图 6-1 所 示 。 


HO — Ratio of sampling times | 


—— Average value 
0.8 
0.6 


0.4 


0.2 


x 


Ev 


0.0 


0 50 100 150 200 250 300 350 400 


图 6-1 HÆ LLMs 的 采样 次 数 与 生成 JSON 长 度 的 比率 


"”https://mermaid.js.org/ 
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若 仅 考虑 DSL 能 够 被 Parser 解析 成 功 ， 本 研究 进行 了 约 2.7 亿 次 JSON 生成 和 
用 Python 的 JSON 包 解 析 的 测试 ， 生 成 了 平均 长 度 17.86、 最 大 长 度 2136 的 JSON 
字符 串 ， 其 中 100% 的 ISON 字符 串 都 能 够 被 成 功 解析 并 还 原 。 


6.1 本 研究 实现 大 语言 模型 JSON 模式 


引导 JSON 生成 工具 
step 01. 输入 提示 词 


生成 一 份 菜谱 


step 02. JSON 模式 


step 03. 点 生成 按钮 
4 生成 
step 04. 生成 JSON 


生成 的 JSON 结果 
{ 


ipe": { 
"name": "香草 奶油 烤 土 豆 "， 
"ingredients": [Å 


"item": "中 等 大 小 的 土豆 "， 
"quantity": "4 个 " 


"item": "an", 
"quantity": "2 汤匙 " 


"item": " 盐 和 胡椒 粉 ”， 
站 


6-2 JSON 模式 大 语言 模型 实现 的 交互 表面 

JSON 作为 典型 的 DSL 能 够 表达 常用 的 数据 结构 ， 本 研究 基于 YieldLang 和 
JSON 的 语法 规则 实现 了 大 语言 模型 的 JSON 模式 ， 如 图 5-14 所 示 。 

5-14 中 的 人 机 交互 界面 从 上 到 下 分 别 是 标题 、 提 示 词 输入 框 按钮 、 提 示 词 
输入 框 、JSON 模式 启用 开关 、 生 成 按钮 和 生成 结果 预览 。 第 一 个 提示 词 输入 框 按 
钮 是 编辑 提示 词 Markdown 源码 的 按钮 、 第 二 个 是 查看 输入 框 使 用 帮助 的 按钮 。 提 
示 词 输入 框 用 于 输入 提供 给 语言 模型 的 提示 词 。 关 闭 ISON 模式 , 模型 将 不 采用 本 
研究 的 装置 。 打 开 ISON 模式 ， 将 会 启用 本 研究 的 装置 ， 并 配置 JSON 的 CFG。 点 
击 生成 按钮 , 语言 模型 将 采用 提示 词 逐个 生成 Token 并 添加 到 生成 结果 预览 编辑 器 
的 光标 末尾 ， 直 到 模型 输出 到 结束 Token ， 大 语言 模型 生成 JSON 完毕 。 

在 工业 实践 中 ， 基 于 本 研究 的 装置 可 以 纳入 基于 Transformer 的 推理 框架 中 ， 
提供 一 个 与 OpenAI 类 似 的 APL 例如 {"response_format": {"type": "json object")) 
表示 语言 模型 应 该 以 json_object 格式 返回 响应 。 更 进一步 ， 采 用 提示 词 工 程 等 技 
术 ， 还 可 以 在 “适当 ”的 时 候 或 “位 置 " 启 用 DSL 约束 装置 ， 以 实现 具体 的 功能 。 
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7 ”总结 与 展望 


本 文 研究 了 大 语言 模型 生成 领域 特定 语言 的 挑战 和 方法 。 首 先 介绍 了 DSL 的 
广泛 应 用 和 研究 现状 , 并 指出 语言 模型 生成 DSL 的 潜力 和 局 限 性 。 本 文 分 析 了 DSL 
的 典型 句法 特征 , 并 提出 了 一 种 验证 语言 模型 生成 DSL 性 能 的 实验 方法 。 实验 结 果 
表明 , 现 有 的 语言 模型 在 生成 DSL 任务 上 的 性 能 不 可 接受 , 为 了 解决 上 述 问 题 , 本 
文 提出 了 一 种 基于 约束 解码 的 DSL 生成 框架 , 该 框架 包括 异步 DSL 解析 语言 生成 
装置 和 语言 模型 引导 装置 。 本文 还 介绍 了 自 回 归 语 言 模型 的 约束 解码 策略 , 并 基于 
Python 的 元 编程 能 力 设计 了 一 个 DSL 生成 框架 YieldLang 。 

Section 6 介绍 了 本 研究 设计 的 方案 在 多 个 DSL 生成 任务 上 取得 了 优势 ， 能 够 
提高 语言 模型 生成 DSL 的 性 能 。 令 人 喜出望外 的 是 , 本 研究 的 装置 还 有 望 节约 大 语 
言 模 型 的 采样 次 数 , 这 可 以 减少 语言 模型 生成 DSL 所 需要 的 计算 量 和 时 间 。 本 研究 
还 实现 了 一 个 大 语言 模型 的 JSON 模式 , 提供 了 一 个 人 机 交互 界面 , 用 户 可 以 通过 
给 大 语言 模型 输入 提示 词 来 生成 特定 的 JSON 字符 串 。 

实际 上 , 本 研究 的 本 质 可 以 认为 是 利用 一 种 “自动 补 全 ”方法 来 帮助 或 限制 语言 
模型 输出 DSL.。 约 束 解 码 可 以 形象 地 理解 为 " 拘 着 语言 模型 的 脖子 说 话 ”。 此 外 , DSL 
作为 一 种 统一 的 、 通 用 的 且 已 经 被 大 规模 应 用 的 形式 , 可 能 是 帮助 人 工 智 能 掌握 工 
具 的 使 用 的 一 个 重要 途径 。 下 面 列举 了 两 个 可 能 的 应 用 场景 : 

(1) 代码 自动 补 全 : 使 用 语言 模型 帮助 开发 人 员 用 更 少 的 步骤 输入 代码 实现 需 
eo 如 果 语 言 模 型 能 够 根据 上 下 文 环 境 构 建 更 具体 的 DSL 语法 规则 , 再 经 过 约束 解 
码 来 帮助 开发 人 员 书 写 代码 ， 那 么 可 能 将 大 大 提高 开发 者 的 采纳 率 。 

(2) 智能 操作 员 : 根据 CFG 产生 100% 正确 的 函数 调用 表达 式 或 其 他 DSL, 使 
得 模型 可 以 根据 上 下 文 环境 ， 以 更 高 的 成 功率 调用 函数 完成 某 些 特定 的 任务 。 

最 近 新 出 现 的 MoonBit 语言 已 经 开始 尝试 采用 DSL 采样 器 来 “ 适 配 ” 大 语言 模 

型 s， 本 研究 提出 的 协 程 方 法 可 能 有 望 改 进 现 有 语言 模型 的 DSL 采样 器 。 

最 后 , 本 研究 还 有 众多 不 足 , 例如 自 回 归 语言 模型 在 受到 更 复杂 语法 约束 的 情 
况 下 , 它 能 够 完成 更 多 不 同类 型 任务 的 条 件 概率 是 怎样 变化 的 ? 如 何 将 提示 词 工程 
技术 和 In-Context Learning (ICL) 的 方法 与 DSL 约束 装置 相 结 合 ， 使 得 大 语言 模型 
能 够 在 DSL 的 语义 上 拥有 更 好 的 性 能 ?期 待 这 些 问 题 在 未 来 拥有 好 的 答案 。 


'Shttps://www.moonbitlang.com/blog/moonbit-ai 
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